JP2003295890A - 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム - Google Patents

音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム

Info

Publication number
JP2003295890A
JP2003295890A JP2002102274A JP2002102274A JP2003295890A JP 2003295890 A JP2003295890 A JP 2003295890A JP 2002102274 A JP2002102274 A JP 2002102274A JP 2002102274 A JP2002102274 A JP 2002102274A JP 2003295890 A JP2003295890 A JP 2003295890A
Authority
JP
Japan
Prior art keywords
voice
recognition dialogue
voice recognition
dialogue
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002102274A
Other languages
English (en)
Inventor
Eiko Yamada
栄子 山田
Hiroshi Hagane
広 羽金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002102274A priority Critical patent/JP2003295890A/ja
Priority to EP03708563A priority patent/EP1394771A4/en
Priority to US10/476,638 priority patent/US20040162731A1/en
Priority to PCT/JP2003/002952 priority patent/WO2003085640A1/ja
Priority to CNB038003465A priority patent/CN1282946C/zh
Priority to TW092107581A priority patent/TWI244065B/zh
Publication of JP2003295890A publication Critical patent/JP2003295890A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 複数の認識対話サーバをもつ音声認識対話シ
ステムにおいて、ひとつの認識対話サーバを選択し決定
する枠組みがない。 【解決手段】 クライアント端末10は、端末情報記憶
部140に記憶されているその能力情報を認識対話選択
サーバ20へ送信する。クライアント端末10の能力に
ついては、CODECの能力(CODECの種類、CO
DEC圧縮モード等)、音声データ形式(圧縮音声デー
タ、特徴ベクトル等)、録音音声入出力機能、合成音声
入出力機能(合成エンジンなし、中間表現入力用エンジ
ンあり、文字列入力用エンジンあり等)、サービス内容
である。認識対話選択サーバ20は、クライアント端末
10から送信された能力情報を受信し、予め認識対話サ
ーバ情報記憶部230に記憶されている複数台の認識対
話サーバの能力情報と、要求されたサービス内容の情報
から、最適な認識対話サーバを一意に決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、携帯電話、車載端
末等の端末(クライアント)に入力された音声データを
ネットワークを通して認識対話サーバ側に送信し、認識
対話サーバ側で音声認識・応答による音声対話を行う音
声認識対話装置、及び方法、及びシステムに関する。
【0002】
【従来の技術】従来より、端末側(クライアント側)に
入力された音声データをパケット網にて認識対話サーバ
側へ送信し、認識対話サーバ側にて音声認識対話処理を
行うサーバ・クライアント型音声認識対話装置としてVo
IP(Voiceover Internet Protocol)を用いた音声認識
対話システムが知られている。たとえば、Nikkei Inte
rnet Technology, pp.130〜137, March 1998 に詳しく
述べられている。
【0003】VoIPを用いたシステムでは、予め、端末側
と認識対話サーバ側のIPアドレスを既知とした枠組み
で音声認識、又は音声認識と応答(合成、録音音声等)
による音声対話が行われる。すなわち、端末と認識対話
サーバをお互いのIPアドレスをもとにパケット通信可
能な状態に接続しておき、その上で音声データのパケッ
トを端末側からサーバ側に送ることで音声認識対話を行
う枠組みとなっている。
【0004】特開平10−333693号公報「自動ス
ピーチ認識サービス提供方法およびシステム」では、ク
ライアントから音声データをパケット網を経由して音声
認識サーバへ送信し、認識するシステムが開示されてい
る。
【0005】
【発明が解決しようとする課題】従来システムでは、端
末側と認識対話サーバ側のIPアドレスを既知とした枠
組みで音声認識、音声対話が行われるしくみとなってい
る。そのため、認識対話サーバが複数台存在する場合に
使用する認識対話サーバを選択し決定する枠組みがない
という問題点があった。
【0006】特開平10−333693号公報「自動ス
ピーチ認識サービス提供方法およびシステム」では、認
識対話サーバが複数台存在する場合についてはなんら開
示されていない。
【0007】本発明では、認識対話サーバが複数台存在
する場合においても、端末側の能力(CODEC能力、
合成音声入力機能、サービス内容等)と認識対話サーバ
側の能力(CODEC能力、合成音声出力機能、認識エ
ンジン機能、サービス内容等)とにより最適な認識対話
サーバが選択して決定され、決定された認識対話サーバ
と端末との間で音声認識対話を行うことが可能な音声認
識対話システムを提供する。
【0008】特開平10−333693号公報「自動ス
ピーチ認識サービス提供方法およびシステム」では、複
数のASPサーバをその能力により適宜選択することは
なんら開示されていない。
【0009】
【課題を解決するための手段】前記目的を達成する本願
第一の発明に係る音声認識対話システムは、音声情報の
送信手段と複数個の音声認識対話を行う手段とをネット
ワークで接続した音声認識対話装置であって、前記音声
情報の送信手段の能力と前記音声認識対話を行う手段の
能力とによって一つの前記音声認識対話を行う手段を決
定する。
【0010】本発明第二の発明の音声認識対話システム
は、音声認識対話を行う手段に対して要求するサービス
と音声情報を送信する手段と、複数個の前記音声認識対
話を行う手段とをネットワークで接続した音声認識対話
装置であって、前記サービスと前記音声情報を送信する
手段の能力と前記音声認識対話を行う手段の能力とによ
って一つの前記音声認識対話を行う手段を決定する。
【0011】本発明第三の発明の音声認識対話システム
は、音声認識対話を行う手段に対して要求するサービス
を保持するサービス保持手段と、音声情報を送信する手
段と、複数個の前記音声認識対話を行う手段とをネット
ワークで接続した音声認識対話装置であって、前記サー
ビスと前記音声情報を送信する手段の能力と前記音声認
識対話を行う手段の能力とによって一つの前記音声認識
対話を行う手段を決定する。
【0012】本発明第四の発明の音声認識対話システム
は、本発明第一、または三の発明の音声認識対話システ
ムであって、決定された前記音声認識対話を行う手段を
特定する情報を前記音声情報を送信する手段へ送り、前
記音声情報を送信する手段と前記決定された音声認識対
話を行う手段との間で前記音声情報を交換し音声認識対
話を行う。
【0013】本発明第五の発明の音声認識対話システム
は、本発明第二の発明の音声認識対話システムであっ
て、決定された前記音声認識対話を行う手段を特定する
情報を前記サービスと音声情報を送信する手段へ送り、
前記前記音声情報を送信する手段と前記決定された音声
認識対話を行う手段との間で前記サービスと音声情報を
交換し音声認識対話を行う。
【0014】本発明第六の発明の音声認識対話システム
は、本発明第四、または五の発明の音声認識対話システ
ムであって、決定された前記音声認識対話を行う手段
を、他の決定された前記音声認識対話を行う手段に変更
する手段をさらに有す。
【0015】本発明第七の発明の音声認識対話システム
は、本発明第一、三、四または六の発明の音声認識対話
システムであって、複数個の前記音声認識対話を行う手
段から1つの前記音声認識対話を行う手段を決定する部
分が、前記音声情報の送信手段の能力と複数個の前記音
声認識対話を行う手段の能力とを比較し、前記音声認識
対話を行う手段の前記音声情報の入力形式と前記音声情
報の送信手段との前記音声情報の出力形式が一致し、且
つ、特定の能力を持つ前記音声認識対話を行う手段を決
定する請求項1、3、4または6記載の音声認識対話シ
ステム。
【0016】本発明第八の発明の音声認識対話システム
は、本発明第二,五または六の発明の音声認識対話シス
テムであって、複数個の前記音声認識対話を行う手段か
ら1つの前記音声認識対話を行う手段を決定する部分
が、前記サービスと音声情報の送信手段の能力と複数個
の前記音声認識対話を行う手段の能力とを比較し、前記
音声認識対話を行う手段の前記音声情報の入力形式と前
記サービスと音声情報の送信手段との前記音声情報の出
力形式が一致し、且つ、特定の能力を持つ前記音声認識
対話を行う手段を決定する。
【0017】本発明第九の発明の音声認識対話システム
は、音声認識対話サーバに対して要求するサービスと音
声情報を送信するクライアント端末と、複数個の音声認
識対話サーバと、前記クライアント端末と前記音声認識
対話サーバの中からひとつを選択する音声認識対話選択
サーバとがネットワークにより接続された音声認識対話
システムであって、前記音声認識対話選択サーバは、ネ
ットワークを介して通信を行うデータ通信部と、前記音
声認識対話サーバの能力を記憶する認識対話サーバ情報
記憶部と、前記端末情報記憶部内の前記クライアント端
末の能力を読み出して、前記認識対話サーバ情報記憶部
内の音声認識対話サーバの能力とを比較して特定の能力
を有するひとつの音声認識対話サーバを決定し、前記ひ
とつの音声認識対話サーバの情報を前記クライアント端
末へ送る認識対話サーバ決定部を有し、前記クライアン
ト端末は、音声情報とサービスを入力するデータ入力部
と、前記クライアント端末の能力を記憶する端末情報記
憶部と、ネットワークを介して通信を行うデータ通信部
と、前記ひとつの音声認識対話サーバに対して前記音声
情報を送信するように前記クライアント端末を制御する
制御部から構成され、前記音声認識対話サーバは、前記
クライアント端末からの前記音声情報により音声認識対
話を実行する音声認識対話実行部と、ネットワークを介
して通信を行うデータ通信部と、音声認識対話サーバを
制御する制御部から構成される。
【0018】本発明第十の発明の音声認識対話システム
は、本発明第九の発明の音声認識対話システムであっ
て、さらにサービスを保持するサービス内容保持サーバ
がネットワークに接続され、前記音声認識対話サーバは
前記サービス内容保持サーバからサービス内容を読み込
む読み込み部をさらに有する。
【0019】本発明第十一の発明の音声認識対話システ
ムは、本発明第九または十の発明の音声認識対話システ
ムであって、前記音声認識対話サーバはほかの前記音声
認識対話サーバへ音声認識対話処理を移行させる要求を
前記音声認識対話選択サーバへ出す手段を、さらに有す
る。
【0020】本発明第十二の発明の音声認識対話システ
ムは、本発明第一から十一の発明の音声認識対話システ
ムであって、前記音声情報がデジタル化された音声デー
タ、又は圧縮された音声データ、又は特徴ベクトルであ
る。
【0021】本発明第十三の発明の音声認識対話システ
ムは、本発明第一から八の発明の音声認識対話システム
であって、前記送信手段の能力が、CODECの能力、
音声データ形式、録音・合成音声入出力機能である。
【0022】本発明第十四の発明の音声認識対話システ
ムは、本発明第一から八の発明の音声認識対話システム
であって、前記音声認識対話を行う手段の能力が、CO
DECの能力、音声データ形式、録音・合成音声出力機
能、サービス内容、認識の能力、稼動情報である。
【0023】本発明第十五の発明の音声認識対話システ
ムは、本発明第九から十一の発明の音声認識対話システ
ムであって、前記クライアント端末の能力が、CODE
Cの能力、音声データ形式、録音・合成音声入出力機能
である。
【0024】本発明第十六の発明の音声認識対話システ
ムは、本発明第九、十、十一または十五の発明の音声認
識対話システムであって、前記音声認識対話サーバをの
能力が、CODECの能力、音声データ形式、録音・合
成音声出力機能、サービス内容、認識の能力、稼動情報
である。
【0025】本発明第一の音声認識対話選択方法は、複
数の音声認識対話を行う手段の中からひとつの音声認識
対話を行う手段を選択する音声認識対話選択方法であっ
て、音声情報の送信手段から音声認識対話処理を含むサ
ービスの要求を受け取る第1のステップと、前記音声情
報の送信手段の能力を要求する第2のステップと、前記
音声情報の送信手段から前記音声情報の送信手段の能力
を送信する第3のステップと、前記音声情報の送信手段
の能力情報と複数の前記音声認識対話を行う手段の能力
を比較し、前記音声認識対話を行う手段を一意に決定す
る第4のステップと、前記音声認識対話を行う手段を決
定する部分から前記音声情報の送信手段へ一意に決定さ
れた前記音声認識対話を行う手段の情報を通知する第5
のステップと、前記音声情報の送信手段と一意に決定さ
れた前記音声認識対話を行う手段との間で音声認識対話
処理を行う第6のステップを有する。
【0026】本発明第二の音声認識対話選択方法は、本
発明第一の音声認識対話選択方法であって、前記音声情
報の送信手段と前記音声認識対話を行う手段との間で音
声認識対話処理が行われている最中に、前記音声認識対
話を行う手段から音声認識対話処理を他の前記音声認識
対話を行う手段へ移行する要求を送信する第7のステッ
プと、前記音声情報の送信手段へ前記音声情報の送信手
段の能力情報を要求する第8のステップと、前記音声情
報の送信手段から前記音声情報の送信手段の能力情報を
送信する第9のステップと前記音声情報の送信手段の能
力情報と複数個の前記音声認識対話を行う手段の能力情
報とを比較し、前記音声認識対話を行う手段を新規に一
意に決定する第10のステップと、前記音声情報の送信
手段へ新規に一意に決定された前記音声認識対話を行う
手段の情報を通知する第11のステップと、前記音声情
報の送信手段と新規に一意に決定された前記音声認識対
話を行う手段との間で音声認識対話処理を行う第12の
ステップをさらに有する。
【0027】本発明第三の音声認識対話選択方法は、複
数の音声認識対話を行う手段の中からひとつの音声認識
対話を行う手段を選択する音声認識対話選択方法であっ
て、音声情報の送信手段から音声認識対話処理を含むサ
ービスの要求を受け取る第1のステップと、前記音声情
報の送信手段の能力を要求する第2のステップと、前記
音声情報の送信手段から前記音声情報の送信手段の能力
を送信する第3のステップと、前記音声情報の送信手段
の能力情報と複数の前記音声認識対話を行う手段の能力
を比較し、前記音声認識対話を行う手段を一意に決定す
る第4のステップと、前記音声認識対話を行う手段を決
定する部分から前記音声情報の送信手段へ一意に決定さ
れた前記音声認識対話を行う手段の情報を通知する第5
のステップと、前記音声情報の送信手段と一意に決定さ
れた前記音声認識対話を行う手段との間で音声認識対話
処理を行う第6のステップと、一意に決定された前記音
声認識対話を行う手段からサービス内容を保持手段へサ
ービス内容を要求する第7のステップと、前記サービス
内容を保持する部分から一意に決定された前記音声認識
対話を行う手段へサービス内容を送信する第8のステッ
プと、一意に決定された前記音声認識対話を行う手段に
て送信された前記サービス内容を読み込む第9のステッ
プと、前記音声情報の送信手段と一意に決定された前記
音声認識対話を行う手段との間で音声認識対話処理を行
う第10のステップを有する。
【0028】本発明第四の音声認識対話選択方法は、本
発明第三の音声認識対話選択方法であって、前記音声情
報の送信手段と前記音声認識対話を行う手段との間で音
声認識対話処理が行われている最中に、前記音声認識対
話を行う手段から音声認識対話処理を他の前記音声認識
対話を行う手段へ移行する要求を送信する第11のステ
ップと、前記音声情報の送信手段へ前記音声情報の送信
手段の能力情報を要求する第12のステップと、前記音
声情報の送信手段から前記音声情報の送信手段の能力情
報を送信する第13のステップと前記音声情報の送信手
段の能力情報と複数個の前記音声認識対話を行う手段の
能力情報とを比較し、前記音声認識対話を行う手段を新
規に一意に決定する第14のステップと、前記音声情報
の送信手段へ新規に一意に決定された前記音声認識対話
を行う手段の情報を通知する第15のステップと、前記
音声情報の送信手段と新規に一意に決定された前記音声
認識対話を行う手段との間で音声認識対話処理を行う第
16のステップをさらに有する。
【0029】本発明第五の音声認識対話選択方法は、本
発明第一から四の音声認識対話選択方法であって、前記
音声情報がデジタル化された音声データ、又は圧縮され
た音声データ、又は特徴ベクトルである。
【0030】本発明第六の音声認識対話選択方法は、本
発明第一から四の音声認識対話選択方法であって、前記
音声情報の送信手段の能力が、CODECの能力、音声
データ形式、録音・合成音声入出力機能、サービス内容
である。
【0031】本発明第六の音声認識対話選択方法は、本
発明第一から四の音声認識対話選択方法であって、前記
音声認識対話を行う手段の能力が、CODECの能力、
音声データ形式、録音・合成音声出力機能、サービス内
容、認識の能力、稼動情報である。
【0032】本発明第一の音声認識対話選択装置は、ネ
ットワークを介して音声情報を送信する送信手段と、前
記音声情報に対して音声認識対話を行う手段が接続され
た音声認識対話システムにおいて、複数の前記音声認識
対話を行う手段の中からひとつの前記音声認識対話を行
う手段を選択を行う音声認識対話選択装置であって、前
記選択を行う際に前記音声情報の送信手段の能力と前記
音声認識対話を行う手段の能力とによって一つの前記音
声認識対話を行う手段を決定する。
【0033】本発明第二の音声認識対話選択装置は、複
数の音声認識対話を行う手段の中からひとつの音声認識
対話を行う手段を選択する音声認識対話選択装置であっ
て、音声認識対話処理を含むサービスの要求または音声
認識対話を行う手段の変更を受け取る第1の手段と、前
記音声情報の送信手段の能力を要求する第2の手段と、
前記音声情報の送信手段から前記音声情報の送信手段の
能力を送信する第3の手段と、前記音声情報の送信手段
の能力情報と複数の前記音声認識対話を行う手段の能力
を比較し、前記音声認識対話を行う手段を一意に決定す
る第4の手段と、前記音声認識対話を行う手段を決定す
る部分から前記音声情報の送信手段へ一意に決定された
前記音声認識対話を行う手段の情報を通知する第5の手
段とを有する。
【0034】本発明第三の音声認識対話選択装置は、本
発明第一または二の音声認識対話選択装置であって、前
記音声情報がデジタル化された音声データ、又は圧縮さ
れた音声データ、又は特徴ベクトルである。
【0035】本発明第四の音声認識対話選択装置は、本
発明第一または二の音声認識対話選択装置であって、前
記音声情報の送信手段の能力が、CODECの能力、音
声データ形式、録音・合成音声入出力機能、サービス内
容である。
【0036】本発明第五の音声認識対話選択装置は、本
発明第一または二の音声認識対話選択装置であって、前
記音声認識対話を行う手段の能力が、CODECの能
力、音声データ形式、録音・合成音声出力機能、サービ
ス内容、認識の能力、稼動情報であることを特徴とす
る。
【0037】本発明第一のプログラムは、複数の音声認
識対話を行う手段の中からひとつの音声認識対話を行う
手段を選択する音声認識対話選択プログラムであって、
音声情報の送信手段から音声認識対話処理を含むサービ
スの要求を受け取る第1の処理と、前記音声情報の送信
手段の能力を要求する第2の処理と、前記音声情報の送
信手段から前記音声情報の送信手段の能力を送信する第
3の処理と、前記音声情報の送信手段の能力情報と複数
の前記音声認識対話を行う手段の能力を比較し、前記音
声認識対話を行う手段を一意に決定する第4の処理と、
前記音声認識対話を行う手段を決定する部分から前記音
声情報の送信手段へ一意に決定された前記音声認識対話
を行う手段の情報を通知する第5の処理と、前記音声情
報の送信手段と一意に決定された前記音声認識対話を行
う手段との間で音声認識対話処理を行う第6の処理を有
する。
【0038】本発明第二のプログラムは、本発明第一の
プログラムにさらに、前記音声情報の送信手段と前記音
声認識対話を行う手段との間で音声認識対話処理が行わ
れている最中に、前記音声認識対話を行う手段から音声
認識対話処理を他の前記音声認識対話を行う手段へ移行
する要求を送信する第7の処理と、前記音声情報の送信
手段へ前記音声情報の送信手段の能力情報を要求する第
8の処理と、前記音声情報の送信手段から前記音声情報
の送信手段の能力情報を送信する第9の処理と前記音声
情報の送信手段の能力情報と複数個の前記音声認識対話
を行う手段の能力情報とを比較し、前記音声認識対話を
行う手段を新規に一意に決定する第10の処理と、前記
音声情報の送信手段へ新規に一意に決定された前記音声
認識対話を行う手段の情報を通知する第11の処理と、
前記音声情報の送信手段と新規に一意に決定された前記
音声認識対話を行う手段との間で音声認識対話処理を行
う第12の処理をさらに有する。
【0039】本発明第三のプログラムは複数の音声認識
対話を行う手段の中からひとつの音声認識対話を行う手
段を選択する音声認識対話選択プログラムであって、音
声情報の送信手段から音声認識対話処理を含むサービス
の要求を受け取る第1の処理と、前記音声情報の送信手
段の能力を要求する第2の処理と、前記音声情報の送信
手段から前記音声情報の送信手段の能力を送信する第3
の処理と、前記音声情報の送信手段の能力情報と複数の
前記音声認識対話を行う手段の能力を比較し、前記音声
認識対話を行う手段を一意に決定する第4の処理と、前
記音声認識対話を行う手段を決定する部分から前記音声
情報の送信手段へ一意に決定された前記音声認識対話を
行う手段の情報を通知する第5の処理と、前記音声情報
の送信手段と一意に決定された前記音声認識対話を行う
手段との間で音声認識対話処理を行う第6の処理と、一
意に決定された前記音声認識対話を行う手段からサービ
ス内容を保持手段へサービス内容を要求する第7の処理
と、前記サービス内容を保持する部分から一意に決定さ
れた前記音声認識対話を行う手段へサービス内容を送信
する第8の処理と、一意に決定された前記音声認識対話
を行う手段にて送信された前記サービス内容を読み込む
第9の処理と、前記音声情報の送信手段と一意に決定さ
れた前記音声認識対話を行う手段との間で音声認識対話
処理を行う第10の処理を有する。
【0040】本発明第四のプログラムは、本発明第三の
プログラムにさらに、前記音声情報の送信手段と前記音
声認識対話を行う手段との間で音声認識対話処理が行わ
れている最中に、前記音声認識対話を行う手段から音声
認識対話処理を他の前記音声認識対話を行う手段へ移行
する要求を送信する第11の処理と、前記音声情報の送
信手段へ前記音声情報の送信手段の能力情報を要求する
第12の処理と、前記音声情報の送信手段から前記音声
情報の送信手段の能力情報を送信する第13の処理と前
記音声情報の送信手段の能力情報と複数個の前記音声認
識対話を行う手段の能力情報とを比較し、前記音声認識
対話を行う手段を新規に一意に決定する第14の処理
と、前記音声情報の送信手段へ新規に一意に決定された
前記音声認識対話を行う手段の情報を通知する第15の
処理と、前記音声情報の送信手段と新規に一意に決定さ
れた前記音声認識対話を行う手段との間で音声認識対話
処理を行う第16の処理をさらに有する。
【0041】本発明第五のプログラムは、本発明第一か
ら四のプログラムであって、前記音声情報がデジタル化
された音声データ、又は圧縮された音声データ、又は特
徴ベクトルであることを特徴とする。
【0042】本発明第六のプログラムは、本発明第一か
ら四のプログラムであって、前記音声情報の送信手段の
能力が、CODECの能力、音声データ形式、録音・合
成音声入出力機能、サービス内容であることを特徴とす
る。
【0043】本発明第七のプログラムは、本発明第一か
ら四のプログラムであって、前記音声認識対話を行う手
段の能力が、CODECの能力、音声データ形式、録音
・合成音声出力機能、サービス内容、認識の能力、稼動
情報であることを特徴とする。
【0044】[作用]本発明よる音声認識対話システム
は、クライアント端末とそれぞれ複数の認識対話サーバ
がネットワークを通して接続されているシステムであ
り、認識対話サーバが複数台ある場合においても複数台
の中から最適な認識対話サーバを選択して決定し、最適
な認識対話サーバ上で音声認識対話を実行することが可
能となっている。
【0045】最適な認識対話サーバの決定方法について
は、クライアント端末の能力と認識対話サーバ側との能
力とを比較し、クライアント端末と認識対話サーバとの
出入力が一致し、且つ最も高い能力であり、且つ現在稼
動中の認識対話サーバが選択されるような決定方法を一
例として挙げることができる。
【0046】クライアント端末の能力については、CO
DECの能力(CODECの種類、CODEC圧縮モー
ド等)、音声データ形式(圧縮音声データ、特徴ベクト
ル等)、録音音声入出力機能、合成音声入出力機能(合
成エンジンなし、中間表現入力用エンジンあり、文字列
入力用エンジンあり等)、サービス内容等が挙げられ
る。また、認識対話サーバの能力については、CODE
Cの能力(CODECの種類、CODEC伸張モード
等)、録音音声出力機能、合成音声出力機能(合成エン
ジンなし、中間表現出力用エンジンあり、波形出力用エ
ンジンあり等)、サービス内容、認識エンジンの能力
(タスク専用エンジン、ディクテーションエンジン、コ
マンド認識用エンジン等)、稼動情報等が挙げられる。
CODECの種類については、AMR-NBやAMR-WB等が挙げ
られる。また、合成音声の中間表現とは、文字列を発音
記号列に変換した後の表現を一例として挙げることがで
きる。サービス内容には、住所認識、名前認識、着信メ
ロディーの曲名認識、電話番号認識、クレジット番号認
識などのサービスが挙げられる。
【0047】認識対話サーバを決定する処理部について
は、Webサーバ、又は認識対話選択サーバに含まれる
場合や、認識対話サーバに含まれる場合や、Webサー
バ、又は認識対話選択サーバと認識対話サーバとの両方
に含まれる場合とが考えられる。
【0048】本発明によって、最適な認識対話サーバを
用いた音声認識対話を実行することが可能となる。ま
た、認識対話サーバ自身に認識対話サーバ決定機能を持
たせることで、対話の最中においても、端末側は他の適
切な認識サーバに自動的にアクセスすることが可能とな
る。
【0049】また、本発明によると、サービスの内容を
認識対話サーバ以外のサーバ(例えば、Webサーバやコ
ンテンツプロバイダーのサーバ等が挙げられる)から受
信し、受信したサービスの内容に従った音声認識対話を
実行することも可能である。サービスの内容の形式につ
いては、VoiceXML文書やサービス名を例として挙げるこ
とができる。
【0050】
【発明の実施の形態】本発明は、ネットワークを利用し
て音声認識対話のサービスを提供するための音声認識対
話システムにおいて、認識対話サーバが複数台ある場合
に最適な認識対話サーバを一意に選択、決定する機能を
持つシステムである。
【0051】次に本発明の実施の形態について図面を参
照して詳細に説明する。図1は、本発明実施の形態の音
声認識対話システムの構成を示す図である。クライアン
ト端末10は、ネットワーク1を介して認識対話選択サ
ーバ20と、認識対話サーバ30、認識対話代表サーバ
40、認識対話サーバC50、新規認識対話サーバ80
と、サービス内容保持サーバ60に接続している。
【0052】ネットワーク1の種類については、インタ
ーネット(有線または無線を含む)、イントラネットが
挙げられる。
【0053】図2は、本発明のクライアント端末10の
構成を示すブロック図である。クライアント端末10は
携帯端末、PDA、車載端末、パーソナルコンピュー
タ、ホーム端末である。クライアント端末10は、クラ
イアント端末10を制御する制御部120、クライアン
ト端末10の能力を保持する端末情報記憶部140、ネ
ットワーク1を介して通信を行うデータ通信部130か
ら構成される。クライアント端末10側の能力について
は、CODECの能力(CODECの種類、CODEC
圧縮モード等)、音声データ形式(圧縮音声データ、特
徴ベクトル等)、録音音声入出力機能、合成音声入出力
機能(合成エンジンなし、中間表現入力用エンジンあ
り、文字列入力用エンジンあり等)、サービス内容であ
る。クライアント端末10にwebブラウザを実装し、
これにより利用者とのインタフェースを行うようにして
もよい。サービス内容には、住所認識、名前認識、着信
メロディーの曲名認識、電話番号認識、クレジット番号
認識などのサービスが挙げられる。
【0054】図3は、本発明実施の形態の認識対話サー
バ30の構成を示すブロック図である。認識対話サーバ
30は、認識対話サーバ30を制御する制御部320、
音声認識および対話を実行する音声認識対話実行部33
0、ネットワーク1を介して通信を行うデータ通信部3
10から構成される。
【0055】図4は、本発明の認識対話選択サーバ20
の構成を示すブロック図である。認識対話選択サーバ2
0は、ネットワーク1を介して通信を行うデータ通信部
210、認識対話サーバが複数台ある場合に最適な認識
対話サーバを一意に選択、決定する認識対話サーバ決定
部220と、選択、決定された認識対話サーバの能力情
報を記憶する認識対話サーバ情報記憶部230から構成
される。認識対話サーバの能力については、CODEC
の能力(CODECの種類、CODEC伸張モード
等)、音声データ形式(圧縮音声データ、特徴ベクトル
等)、録音音声出力機能、合成音声出力機能(合成エン
ジンなし、中間表現出力用エンジンあり、波形出力用エ
ンジンあり等)、サービス内容、認識エンジンの能力
(タスク専用エンジン、ディクテーションエンジン、コ
マンド認識用エンジン等)、稼動情報等が挙げられる。
【0056】新規認識対話サーバ80は、認識対話サー
バ30、認識対話代表サーバ40、認識対話サーバC5
0のうちのどれかひとつと同じである。
【0057】認識対話選択サーバ20、認識対話サーバ
30、認識対話代表サーバ40、認識対話サーバC5
0、新規認識対話サーバ80は、OSとしてWndow
s(登録商標)NT,Windows(登録商標)20
00を搭載したコンピュータや、Solalis(登録
商標)を搭載したサーバである。認識対話代表サーバ4
0、認識対話サーバC50の構成については後に説明す
る。
【0058】次に、本発明実施の形態の音声認識対話シ
ステムの動作について説明する。
【0059】第一に、音声認識と対話を行う認識対話サ
ーバ30を決定する処理を認識対話選択サーバ20で行
い、決定した認識対話サーバ30にて音声認識対話処理
を行う場合について説明する。図5は、本発明実施の形
態の音声認識対話システムにおいて、認識対話選択サー
バ20にて認識対話サーバ30を決定する場合の処理を
示すフローチャートである。
【0060】まず始めに、クライアント端末10より認
識対話選択サーバ20へ音声認識対話処理が含まれるサ
ービスの要求が行われる(ステップ501)。具体的に
は、クライアント端末10側のデータ通信部130か
ら、サービスを実行するプログラムのCGIのURLと
処理に必要な引数とがHTTPコマンド等にて認識対話
選択サーバ20側に送信される。次に、認識対話選択サ
ーバ20側ではクライアント端末10側からのサービス
要求を受け、クライアント端末10の能力情報を要求す
る(ステップ502)。次に、クライアント端末10
は、認識対話選択サーバ20からの能力情報要求を受
け、端末情報記憶部140に記憶されているクライアン
ト端末10の能力情報を制御部120を通じ、データ通
信部130から認識対話選択サーバ20へ送信する(ス
テップ503)。クライアント端末10の能力について
は、CODECの能力(CODECの種類、CODEC
圧縮モード等)、音声データ形式(圧縮音声データ、特
徴ベクトル等)、録音音声入出力機能、合成音声入出力
機能(合成エンジンなし、中間表現入力用エンジンあ
り、文字列入力用エンジンあり等)、サービス内容等が
挙げられる。
【0061】認識対話選択サーバ20は、クライアント
端末10から送信されたクライアント端末10の能力情
報を受信し、予め認識対話サーバ情報記憶部230に記
憶されている複数台の認識対話サーバの能力情報を読み
出し、認識対話サーバ決定部220にてクライアント端
末10側の能力情報と複数台の認識対話サーバの能力を
比較し(ステップ504)、クライアント端末10側か
ら要求されたサービス内容の情報も加味し、最適な認識
対話サーバを一意に決定する(ステップ505)。
【0062】認識対話サーバの能力については、COD
ECの能力(CODECの種類、CODEC伸張モード
等)、音声データ形式(圧縮音声データ、特徴ベクトル
等)、録音音声出力機能、合成音声出力機能(合成エン
ジンなし、中間表現出力用エンジンあり、波形出力用エ
ンジンあり等)、サービス内容、認識エンジンの能力
(タスク専用エンジン、ディクテーションエンジン、コ
マンド認識用エンジン等)、稼動情報等が挙げられる。
【0063】最適な認識対話サーバ30の決定方法につ
いては、クライアント端末10の能力と認識対話サーバ
側との能力とを比較し、クライアント端末10と認識対
話サーバ30との出入力が一致し、且つ最も高い能力で
あり、且つ現在稼動中の認識対話サーバが選択されるよ
うな決定方法を一例として挙げることができる。また、
サービス毎に認識対話サーバ30が存在する場合、例え
ば、住所タスク用サーバ、氏名タスク用サーバ、電話番
号タスク用サーバ、カードIDタスク用サーバ等専用の認
識対話サーバ30が存在する場合、クライアント端末1
0から要求されたサービス内容を実行可能な認識対話サ
ーバを選択する方法も一例として挙げられる。
【0064】次に、認識対話選択サーバ20は、認識対
話サーバ決定部220にて決定した認識対話サーバの情
報をクライアント端末10側に通知する(ステップ50
6)。通知の方法については、認識対話サーバ30のア
ドレス、又は認識対話サーバ30上の、認識対話を実行
する実行プログラムのアドレス等をHTML等の画面に
埋め込んで通知する方法を一例として挙げることができ
る。
【0065】次に、クライアント端末10は、認識対話
選択サーバ20より認識対話サーバ30の情報の通知を
受信し、通知された認識対話サーバ30へ音声認識対話
の開始を要求する(ステップ507)。音声認識対話の
開始要求の方法については、認識対話を実行する実行プ
ログラムのアドレスのURLと音声認識対話を実行する
際に必要な引数をHTTPのPOSTコマンドにて送信
する方法が一例として挙げられる。前述の引数について
は、サービス内容を記述する文書(VoiceXML等)やサービ
ス名、音声認識対話実行コマンド等が挙げられる。次
に、認識対話サーバ30は、クライアント端末10から
の音声認識対話開始の要求を受け、音声認識対話を実行
する(ステップ508)。音声認識対話処理について
は、後で図6を用いて詳しく説明する。
【0066】音声認識対話を終了する場合は、クライア
ント端末10側から認識対話終了要求を行う(ステップ
509)。認識対話終了要求の方法については、認識対
話を終了する実行プログラムのアドレスをHTTPのP
OSTコマンドにて送信する方法や、認識対話を実行す
る実行プログラムのアドレスと認識対話を終了させるコ
マンドとをHTTPのPOSTコマンドにて送信する方
法を例として挙げることができる。認識対話サーバは、
クライアント端末10側からの音声認識対話終了要求を
受信し、音声認識対話を終了する(ステップ710)。
【0067】次に、音声認識対話処理について説明す
る。図6は、本発明実施の形態の音声認識対話方法にお
いて、音声認識対話の処理を示すフローチャートであ
る。まず始めに、クライアント端末10のデータ入力部
110に入力された音声が制御部120に送信され、制
御部120にてデータ処理が行われる。データ処理の内
容については、デジタル化処理、音声検出処理、音声分
析処理を例として挙げることができる。次に、処理され
た音声データは、データ通信部210より認識対話サー
バに送信される(ステップ601)。音声データについ
ては、デジタル化された音声データ、圧縮された音声デ
ータ、特徴ベクトルを例として挙げられる。
【0068】認識対話サーバ30では、クライアント端
末10より逐次的に送信された音声データをデータ通信
部310にて受信し(ステップ602)、制御部320
にて音声データであると判断し、音声認識対話実行部3
30に送信する。音声認識対話実行部330は、音声認
識対話に必要な認識エンジン、認識用辞書、合成エンジ
ン、合成用辞書等を持っており、逐次的に音声認識対話
処理を行う(ステップ603)。
【0069】音声認識対話処理については、クライアン
ト端末10から送信される音声データの種類によって処
理内容が変わる。例えば、送信される音声データが圧縮
音声データである場合は圧縮データの伸張、音声分析、
認識処理を行い、特徴ベクトルが送信される場合は音声
の認識処理のみを行う。認識処理終了後、出力された認
識結果をクライアント端末10へ送信する(ステップ6
04)。認識結果の形式については、テキストや、テキ
ストの内容にあう合成音声・録音音声や、認識内容を反
映させた画面のURL等を挙げることができる。クライア
ント端末10では、認識対話サーバ30から受信した認
識結果を認識結果の形式に従って処理する(ステップ6
05)。例えば、認識結果の形式が合成音声、又は録音
音声である場合は音声を出力させ、認識結果の形式が画
面のURLである場合は画面を表示する処理を行う。こ
のようにしてステップ601からステップ605までの
処理が何度か繰り返され、音声対話が進行する。
【0070】第二に、本発明実施の形態の音声認識対話
システムにおいて、音声認識対話処理を行っている認識
対話サーバ30を、他の新規認識対話サーバ80で音声
認識対話処理を行うように変更する場合について説明す
る。図7は、本発明実施の形態の音声認識対話システム
において、認識対話サーバ30にて認識対話処理中に認
識対話選択サーバ20にて新規認識対話サーバ80を決
定する場合の処理を示すフローチャートである。
【0071】図7によると、クライアント端末10と認
識対話サーバ30との間で複数回やりとりが行われた後
に新規認識対話サーバ80での処理が必要となった場
合、認識対話サーバ30から認識対話選択サーバ20へ
新規認識対話サーバ80への処理移行が要求される(ス
テップ703)。サーバ移行要求が行われる契機として
は、対話の最中にサービス内容が変更された場合や、サ
ービス内容とサーバ能力に不整合が生じた場合や、認識
対話サーバで不具合が生じた場合等を挙げることができ
る。
【0072】次に認識対話選択サーバ20からクライア
ント端末10へクライアント端末10の能力情報要求が
行われる(ステップ704)。次に、クライアント端末
10は、認識対話選択サーバ20からの能力情報要求を
受け、クライアント端末10情報記憶部140に記憶さ
れているクライアント端末10の能力情報を制御部12
0を通じ、データ通信部130から認識対話サーバへ送
信する(ステップ705)。
【0073】認識対話選択サーバ20では、クライアン
ト端末10から送信されたクライアント端末10の能力
情報を受信し、予め認識対話サーバ情報記憶部230に
記憶されている複数台の認識対話サーバの能力情報を読
み出し、認識対話サーバ決定部220にてクライアント
端末10側の能力情報と複数台の認識対話サーバの能力
を比較し(ステップ706)、認識対話サーバ側からの
移行要求の契機となったサービス内容の情報も加味し、
最適な認識対話サーバを一意に決定する(ステップ70
7)。クライアント端末10の能力情報、認識対話サー
バの能力情報、認識対話サーバの決定方法については前
述と同様である。次に、認識対話選択サーバ20は、認
識対話サーバ決定部220にて決定した新規認識対話サ
ーバ80の情報をクライアント端末10側に通知する
(ステップ708)。通知の方法については、新規認識
対話サーバ80のアドレス、又は新規認識対話サーバ8
0上の、認識対話を実行する実行プログラムのアドレス
等をHTML等の画面に埋め込んで通知する方法を一例
として挙げることができる。
【0074】次に、クライアント端末10側は、新規認
識対話サーバ80のアドレスの通知を受信し、通知され
た新規認識対話サーバ80へ音声認識対話の開始を要求
する(ステップ709)。音声認識対話の開始要求の方
法については、認識対話を実行する実行プログラムのア
ドレスのURLと音声認識対話を実行する際に必要な引数
をHTTPのPOSTコマンドにて送信する方法が一例
として挙げられる。
【0075】第三に、本発明実施の形態の音声認識対話
システムにおいて、上述した認識対話選択サーバ20と
認識対話サーバ30を同一のサーバに実装して、音声認
識対話と適切な音声認識対話サーバの選択を行うことが
できる認識対話代表サーバ40とすることができる。
【0076】図8は、本発明実施の形態の認識対話代表
サーバ40の構成を示すブロック図である。認識対話代
表サーバ40は、認識対話サーバ30に認識対話サーバ
決定部440と認識対話サーバ情報記憶部450とが追
加されている。制御部420、音声認識および対話を実
行する音声認識対話実行部430、ネットワーク1を介
して通信を行うデータ通信部410は、それぞれ制御部
320、音声認識および対話を実行する音声認識対話実
行部330、ネットワーク1を介して通信を行うデータ
通信部310とおなじである。認識対話サーバ決定部4
40は、認識対話サーバが複数台ある場合に最適な認識
対話サーバを一意に選択、決定する。認識対話サーバ情
報記憶部450は、選択、決定された認識対話サーバの
能力情報を記憶する。認識対話サーバの能力について
は、第一の場合と同様に、CODECの能力(CODE
Cの種類、CODEC伸張モード等)、音声データ形式
(圧縮音声データ、特徴ベクトル等)、録音音声出力機
能、合成音声出力機能(合成エンジンなし、中間表現出
力用エンジンあり、波形出力用エンジンあり等)、サー
ビス内容、認識エンジンの能力(タスク専用エンジン、
ディクテーションエンジン、コマンド認識用エンジン
等)、稼動情報等が挙げられる。
【0077】この場合の処理は上述の図5の処理を認識
対話代表サーバ40が単独で行う。
【0078】次に、音声認識対話処理を行っている認識
対話代表サーバ40を、他の新規認識対話サーバ80で
音声認識対話処理を行うように変更する場合について説
明する。図9は、本発明実施の形態の音声認識対話方法
において、認識対話処理中に認識対話代表サーバ40に
て新規認識対話サーバ80を決定する場合の処理を示す
フローチャートである。図9によると、端末側と認識対
話サーバ側との間で複数回やりとりが行われた後に新規
認識対話サーバ80での処理が必要となった場合、認識
対話代表サーバ40からクライアント端末10へクライ
アント端末10の能力情報要求が行われる(ステップ9
03)。クライアント端末10の能力情報要求が行われ
る契機としては、対話の最中にサービス内容が変更され
た場合や、サービス内容とサーバ能力に不整合が生じた
場合や、認識対話サーバで不具合が生じた場合等を挙げ
ることができる。
【0079】次に、クライアント端末10は、認識対話
代表サーバ40からの能力情報要求を受け、端末情報記
憶部140に記憶されているクライアント端末10の能
力情報を制御部120を通じ、データ通信部130から
認識対話代表サーバ40へ送信する(ステップ90
4)。認識対話代表サーバ40では、クライアント端末
10側から送信されたクライアント端末10の能力情報
を受信し、予め認識対話サーバ情報記憶部450に記憶
されている複数台の認識対話サーバの能力情報を読み出
し、認識対話サーバ決定部440にてクライアント端末
10の能力情報と複数台の認識対話サーバの能力を比較
し(ステップ905)、クライアント端末10から要求
されたサービス内容の情報も加味し、最適な認識対話サ
ーバを一意に決定する(ステップ906)。クライアン
ト端末10の能力情報、認識対話サーバの能力情報、認
識対話サーバの決定方法については前述と同様である。
【0080】次に、認識対話代表サーバ40は、認識対
話サーバ決定部440にて決定した新規認識対話サーバ
80の情報をクライアント端末10に通知する(ステッ
プ907)。通知の方法については、新規認識対話サー
バ80のアドレス、又は新規認識対話サーバ80上の、
認識対話を実行する実行プログラムのアドレス等をHT
ML等の画面に埋め込んで通知する方法を一例として挙
げることができる。
【0081】次に、クライアント端末10側は、新規認
識対話サーバ80のアドレスの通知を受信し、通知され
た新規認識対話サーバ80へ音声認識対話の開始を要求
する(ステップ908)。音声認識対話の開始要求の方
法については、認識対話を実行する実行プログラムのア
ドレスのURLと音声認識対話を実行する際に必要な引数
をHTTPのPOSTコマンドにて送信する方法が一例
として挙げられる。
【0082】第四に、本発明実施の形態の音声認識対話
システムにおいて、認識対話サーバC50が、サービス
内容をサービス内容保持サーバ60、例えばコンテンツ
プロバイダーから読み込む場合について説明する。この
場合、サービス内容保持サーバ60を認識対話選択サー
バ20に実装し、サービスを利用者へ提供するインター
フェースとしてwebを用いるwebサーバとしてもよ
い。また、この場合クライアント端末10には、サービ
ス内容を選択したり入力したりするインタフェースとし
てwebブラウザを実装してもよい。
【0083】図10は、本発明実施の形態の認識対話サ
ーバC50を示す図である。認識対話代表サーバ40に
音声認識対話起動部530とサービス内容読み込み部5
40とが追加されている。音声認識対話起動部530
は、音声認識対話処理を起動し、クライアント端末10
側から送信されたサービス情報より、サービス内容を保
持するサーバへサービス内容の要求を行う。サービス内
容には、住所認識、名前認識、着信メロディーの曲名認
識、電話番号認識、クレジット番号認識などのサービス
が挙げられる。サービス内容読み込み部540は、サー
ビス内容をサービス内容保持サーバ60から読み込む。
音声認識対話実行部550、制御部520、データ通信
部510は、それぞれ音声認識対話実行部430、制御
部420、データ通信部410と同じである。認識対話
サーバ情報記憶部570、認識対話サーバ決定部560
は、実装されていなくてもよい。この場合、ひとつの認
識対話サーバの決定は、認識対話選択サーバ20により
行われる。認識対話サーバ情報記憶部570、認識対話
サーバ決定部560が実装される場合は、それぞれ認識
対話サーバ情報記憶部450、認識対話サーバ決定部4
40と同じである。
【0084】図11は、本発明実施の形態の音声認識対
話方法において、認識対話サーバC50がサービス内容
をサービス内容保持サーバ60から読み込む場合の処理
を示すフローチャートである。
【0085】図11のステップ1101からステップ1
105までの処理については、前述のステップ501か
らステップ506の処理と同一である。次にクライアン
ト端末10は、認識対話選択サーバ20より通知された
認識対話サーバC50の情報より、認識対話サーバC5
0へ音声認識対話開始要求を行う(ステップ110
6)。要求の際に、サービス情報の送信を行う。音声認
識対話の開始要求の方法については、認識対話を実行す
る実行プログラムのアドレスのURLとサービス内容情
報をHTTPのPOSTコマンドにて送信する方法が一
例として挙げられる。サービス内容情報については、サ
ービス内容を記述する文書(VoiceXML等)やサービス名が
挙げられる。
【0086】次に、認識対話サーバC50は、クライア
ント端末10からの要求をデータ通信部510で受け、
音声認識対話起動部530にて音声認識対話処理を起動
し、クライアント端末10側から送信されたサービス情
報より、サービス内容保持サーバ60へサービス内容の
要求を行う(ステップ1107)。サービス内容の要求
方法については、クライアント端末10から送信された
サービス内容の情報がアドレスである場合、そのアドレ
スにアクセスする方法を一例として挙げることができ
る。また、クライアント端末10から送信されたサービ
ス情報がサービス名である場合は、サービス名と対をな
すアドレスを検索し、そのアドレスにアクセスする方法
も例として挙げられる。
【0087】次に、サービス内容保持サーバ60では、
認識対話サーバC50からの要求を受け、サービス内容
を送信する(ステップ1108)。認識対話サーバC5
0では、送信されたサービス内容をデータ通信部510
で受け、サービス内容読み込み部540にて読み込み
(ステップ1109)、音声認識対話処理を開始する
(ステップ1110)。ステップ1110からステップ
1112までの処理については、前述のステップ507
からステップ510までの処理と同一である。
【0088】上述のシステムでは、認識対話選択サーバ
20と認識対話サーバC50が双方ネットワークに接続
されている例を説明したがどちらかひとつがネットワー
クに接続されている構成でもよい。
【0089】上述の各ステップはサーバコンピュータ9
01上で動作するプログラムにより実現することができ
る。図12は、本発明実施の形態の音声認識対話方法を
サーバコンピュータ901上で実行させるプログラムと
そのプログラムが記録された記録媒体902を示す図で
ある。
【0090】
【発明の効果】本発明の音声認識対話システム、方法、
プログラムを用いた場合、複数の認識対話サーバが存在
する場合においても、複数台の中から最適な認識対話サ
ーバを選択して決定し、音声認識対話を実行することが
可能となる。更に、種々の理由により対話中に新規認識
対話サーバでの処理が必要となった場合においても、ク
ライアント端末10は他の適切な認識対話サーバに自動
的にアクセスすることが可能となり、認識対話処理を続
行することが可能となる。
【図面の簡単な説明】
【図1】本発明実施の形態の音声認識対話システムの構
成を示す図である。
【図2】本発明のクライアント端末10の構成を示すブ
ロック図である。
【図3】本発明実施の形態の認識対話サーバ30の構成
を示すブロック図である。
【図4】本発明の認識対話選択サーバ20の構成を示す
ブロック図である。
【図5】本発明実施の形態の音声認識対話システムにお
いて、認識対話選択サーバ20にて認識対話サーバを決
定する場合の処理を示すフローチャートである。
【図6】本発明実施の形態の音声認識対話方法におい
て、音声認識対話の処理を示すフローチャートである。
【図7】本発明実施の形態の音声認識対話システムにお
いて、認識対話サーバ30にて認識対話処理中に認識対
話選択サーバ20にて新規認識対話サーバ80を決定す
る場合の処理を示すフローチャートである。
【図8】本発明実施の形態の認識対話代表サーバ40の
構成を示すブロック図である。
【図9】本発明実施の形態の音声認識対話方法におい
て、認識対話処理中に認識対話代表サーバ40にて新規
認識対話サーバ80を決定する場合の処理を示すフロー
チャートである。
【図10】本発明実施の形態の認識対話サーバC50を
示す図である。図4の装置に音声認識対話起動部とサー
ビス内容読み込み部とが追加されている。
【図11】本発明実施の形態の音声認識対話方法におい
て、認識対話サーバC50がサービス内容をサービス内
容保持サーバ60から読み込む場合の処理を示すフロー
チャートである。
【図12】本発明実施の形態の音声認識対話方法をサー
バコンピュータ901上で実行させるプログラムとその
プログラムが記録された記録媒体902を示す図であ
る。
【符号の説明】
1 ネットワーク 10 クライアント端末 20 認識対話選択サーバ 30 認識対話サーバA 40 認識対話代表サーバ 50 認識対話サーバC 60 サービス内容保持サーバ 80 新規認識対話サーバ 110 データ入力部 120 制御部 130 データ通信部 140 端末情報記憶部 210 データ通信部 220 認識対話サーバ決定部 230 認識対話サーバ情報記憶部 310 データ通信部 320 制御部 330 音声認識対話実行部 410 データ通信部 420 制御部 430 音声認識対話実行部 440 認識対話サーバ決定部 450 認識対話サーバ情報記憶部 510 データ通信部 520 制御部 530 音声認識対話起動部 540 サービス内容読み込み部 550 音声認識対話実行部 560 認識対話サーバ決定部 570 認識対話サーバ情報記憶部 901 サーバコンピュータ 902 記録媒体

Claims (35)

    【特許請求の範囲】
  1. 【請求項1】 音声情報の送信手段と複数個の音声認識
    対話を行う手段とをネットワークで接続した音声認識対
    話装置であって、前記音声情報の送信手段の能力と前記
    音声認識対話を行う手段の能力とによって一つの前記音
    声認識対話を行う手段を決定することを特徴とする音声
    認識対話システム。
  2. 【請求項2】 音声認識対話を行う手段に対して要求す
    るサービスと音声情報を送信する手段と、複数個の前記
    音声認識対話を行う手段とをネットワークで接続した音
    声認識対話装置であって、前記サービスと前記音声情報
    を送信する手段の能力と前記音声認識対話を行う手段の
    能力とによって一つの前記音声認識対話を行う手段を決
    定することを特徴とする音声認識対話システム。
  3. 【請求項3】 音声認識対話を行う手段に対して要求す
    るサービスを保持するサービス保持手段と、音声情報を
    送信する手段と、複数個の前記音声認識対話を行う手段
    とをネットワークで接続した音声認識対話装置であっ
    て、前記サービスと前記音声情報を送信する手段の能力
    と前記音声認識対話を行う手段の能力とによって一つの
    前記音声認識対話を行う手段を決定することを特徴とす
    る音声認識対話システム。
  4. 【請求項4】 決定された前記音声認識対話を行う手段
    を特定する情報を前記音声情報を送信する手段へ送り、
    前記音声情報を送信する手段と前記決定された音声認識
    対話を行う手段との間で前記音声情報を交換し音声認識
    対話を行うことを特徴とする請求項1または3記載の音
    声認識対話システム。
  5. 【請求項5】 決定された前記音声認識対話を行う手段
    を特定する情報を前記サービスと音声情報を送信する手
    段へ送り、前記前記音声情報を送信する手段と前記決定
    された音声認識対話を行う手段との間で前記サービスと
    音声情報を交換し音声認識対話を行うことを特徴とする
    請求項2記載の音声認識対話システム。
  6. 【請求項6】 決定された前記音声認識対話を行う手段
    を、他の決定された前記音声認識対話を行う手段に変更
    する手段をさらに有することを特徴とする請求項4また
    は5記載の音声認識対話システム。
  7. 【請求項7】 複数個の前記音声認識対話を行う手段か
    ら1つの前記音声認識対話を行う手段を決定する部分
    が、前記音声情報の送信手段の能力と複数個の前記音声
    認識対話を行う手段の能力とを比較し、前記音声認識対
    話を行う手段の前記音声情報の入力形式と前記音声情報
    の送信手段との前記音声情報の出力形式が一致し、且
    つ、特定の能力を持つ前記音声認識対話を行う手段を決
    定する請求項1、3、4または6記載の音声認識対話シ
    ステム。
  8. 【請求項8】 複数個の前記音声認識対話を行う手段か
    ら1つの前記音声認識対話を行う手段を決定する部分
    が、前記サービスと音声情報の送信手段の能力と複数個
    の前記音声認識対話を行う手段の能力とを比較し、前記
    音声認識対話を行う手段の前記音声情報の入力形式と前
    記サービスと音声情報の送信手段との前記音声情報の出
    力形式が一致し、且つ、特定の能力を持つ前記音声認識
    対話を行う手段を決定する請求項2、5または6記載の
    音声認識対話システム。
  9. 【請求項9】 音声認識対話サーバに対して要求するサ
    ービスと音声情報を送信するクライアント端末と、複数
    個の音声認識対話サーバと、前記クライアント端末と前
    記音声認識対話サーバの中からひとつを選択する音声認
    識対話選択サーバとがネットワークにより接続された音
    声認識対話システムであって、 前記音声認識対話選択サーバは、ネットワークを介して
    通信を行うデータ通信部と、前記音声認識対話サーバの
    能力を記憶する認識対話サーバ情報記憶部と、前記端末
    情報記憶部内の前記クライアント端末の能力を読み出し
    て、前記認識対話サーバ情報記憶部内の音声認識対話サ
    ーバの能力とを比較して特定の能力を有するひとつの音
    声認識対話サーバを決定し、前記ひとつの音声認識対話
    サーバの情報を前記クライアント端末へ送る認識対話サ
    ーバ決定部を有し、 前記クライアント端末は、音声情報とサービスを入力す
    るデータ入力部と、前記クライアント端末の能力を記憶
    する端末情報記憶部と、ネットワークを介して通信を行
    うデータ通信部と、前記ひとつの音声認識対話サーバに
    対して前記音声情報を送信するように前記クライアント
    端末を制御する制御部から構成され、 前記音声認識対話サーバは、前記クライアント端末から
    の前記音声情報により音声認識対話を実行する音声認識
    対話実行部と、ネットワークを介して通信を行うデータ
    通信部と、音声認識対話サーバを制御する制御部から構
    成されることを特徴とする音声認識対話システム。
  10. 【請求項10】 さらにサービスを保持するサービス内
    容保持サーバがネットワークに接続され、前記音声認識
    対話サーバは前記サービス内容保持サーバからサービス
    内容を読み込む読み込み部をさらに有することを特徴と
    する請求項9記載の音声認識対話システム。
  11. 【請求項11】 前記音声認識対話サーバはほかの前記
    音声認識対話サーバへ音声認識対話処理を移行させる要
    求を前記音声認識対話選択サーバへ出す手段を、さらに
    有することを特徴とする請求項9または10記載の音声
    認識対話システム。
  12. 【請求項12】 前記音声情報がデジタル化された音声
    データ、又は圧縮された音声データ、又は特徴ベクトル
    である請求項1から11記載の音声認識対話装置。
  13. 【請求項13】 前記送信手段の能力が、CODECの
    能力、音声データ形式、録音・合成音声入出力機能であ
    る請求項1から8記載の音声認識対話装置。
  14. 【請求項14】 前記音声認識対話を行う手段の能力
    が、CODECの能力、音声データ形式、録音・合成音
    声出力機能、サービス内容、認識の能力、稼動情報であ
    る請求項1から8記載の音声認識対話装置。
  15. 【請求項15】 前記クライアント端末の能力が、CO
    DECの能力、音声データ形式、録音・合成音声入出力
    機能である請求項9から11記載の音声認識対話装置。
  16. 【請求項16】 前記音声認識対話サーバの能力が、C
    ODECの能力、音声データ形式、録音・合成音声出力
    機能、サービス内容、認識の能力、稼動情報である請求
    項9、10、11、15記載の音声認識対話装置。
  17. 【請求項17】 複数の音声認識対話を行う手段の中か
    らひとつの音声認識対話を行う手段を選択する音声認識
    対話選択方法であって、 音声情報の送信手段から音声認識対話処理を含むサービ
    スの要求を受け取る第1のステップと、前記音声情報の
    送信手段の能力を要求する第2のステップと、前記音声
    情報の送信手段から前記音声情報の送信手段の能力を送
    信する第3のステップと、前記音声情報の送信手段の能
    力情報と複数の前記音声認識対話を行う手段の能力を比
    較し、前記音声認識対話を行う手段を一意に決定する第
    4のステップと、前記音声認識対話を行う手段を決定す
    る部分から前記音声情報の送信手段へ一意に決定された
    前記音声認識対話を行う手段の情報を通知する第5のス
    テップと、前記音声情報の送信手段と一意に決定された
    前記音声認識対話を行う手段との間で音声認識対話処理
    を行う第6のステップを有する音声認識対話方法。
  18. 【請求項18】 前記音声情報の送信手段と前記音声認
    識対話を行う手段との間で音声認識対話処理が行われて
    いる最中に、前記音声認識対話を行う手段から音声認識
    対話処理を他の前記音声認識対話を行う手段へ移行する
    要求を送信する第7のステップと、前記音声情報の送信
    手段へ前記音声情報の送信手段の能力情報を要求する第
    8のステップと、前記音声情報の送信手段から前記音声
    情報の送信手段の能力情報を送信する第9のステップと
    前記音声情報の送信手段の能力情報と複数個の前記音声
    認識対話を行う手段の能力情報とを比較し、前記音声認
    識対話を行う手段を新規に一意に決定する第10のステ
    ップと、前記音声情報の送信手段へ新規に一意に決定さ
    れた前記音声認識対話を行う手段の情報を通知する第1
    1のステップと、前記音声情報の送信手段と新規に一意
    に決定された前記音声認識対話を行う手段との間で音声
    認識対話処理を行う第12のステップをさらに有するこ
    とを特徴とする請求項17記載の音声認識対話方法。
  19. 【請求項19】 複数の音声認識対話を行う手段の中か
    らひとつの音声認識対話を行う手段を選択する音声認識
    対話選択方法であって、 音声情報の送信手段から音声認識対話処理を含むサービ
    スの要求を受け取る第1のステップと、前記音声情報の
    送信手段の能力を要求する第2のステップと、前記音声
    情報の送信手段から前記音声情報の送信手段の能力を送
    信する第3のステップと、前記音声情報の送信手段の能
    力情報と複数の前記音声認識対話を行う手段の能力を比
    較し、前記音声認識対話を行う手段を一意に決定する第
    4のステップと、前記音声認識対話を行う手段を決定す
    る部分から前記音声情報の送信手段へ一意に決定された
    前記音声認識対話を行う手段の情報を通知する第5のス
    テップと、前記音声情報の送信手段と一意に決定された
    前記音声認識対話を行う手段との間で音声認識対話処理
    を行う第6のステップと、一意に決定された前記音声認
    識対話を行う手段からサービス内容を保持手段へサービ
    ス内容を要求する第7のステップと、前記サービス内容
    を保持する部分から一意に決定された前記音声認識対話
    を行う手段へサービス内容を送信する第8のステップ
    と、一意に決定された前記音声認識対話を行う手段にて
    送信された前記サービス内容を読み込む第9のステップ
    と、前記音声情報の送信手段と一意に決定された前記音
    声認識対話を行う手段との間で音声認識対話処理を行う
    第10のステップを有することを特徴とする音声認識対
    話方法。
  20. 【請求項20】 前記音声情報の送信手段と前記音声認
    識対話を行う手段との間で音声認識対話処理が行われて
    いる最中に、前記音声認識対話を行う手段から音声認識
    対話処理を他の前記音声認識対話を行う手段へ移行する
    要求を送信する第11のステップと、前記音声情報の送
    信手段へ前記音声情報の送信手段の能力情報を要求する
    第12のステップと、前記音声情報の送信手段から前記
    音声情報の送信手段の能力情報を送信する第13のステ
    ップと前記音声情報の送信手段の能力情報と複数個の前
    記音声認識対話を行う手段の能力情報とを比較し、前記
    音声認識対話を行う手段を新規に一意に決定する第14
    のステップと、前記音声情報の送信手段へ新規に一意に
    決定された前記音声認識対話を行う手段の情報を通知す
    る第15のステップと、前記音声情報の送信手段と新規
    に一意に決定された前記音声認識対話を行う手段との間
    で音声認識対話処理を行う第16のステップをさらに有
    することを特徴とする請求項19記載の音声認識対話方
    法。
  21. 【請求項21】 前記音声情報がデジタル化された音声
    データ、又は圧縮された音声データ、又は特徴ベクトル
    である請求項17から20記載の音声認識対話方法。
  22. 【請求項22】 前記音声情報の送信手段の能力が、C
    ODECの能力、音声データ形式、録音・合成音声入出
    力機能、サービス内容である請求項17から20記載の
    音声認識対話方法。
  23. 【請求項23】 前記音声認識対話を行う手段の能力
    が、CODECの能力、音声データ形式、録音・合成音
    声出力機能、サービス内容、認識の能力、稼動情報であ
    る請求項17から20記載の音声認識対話方法。
  24. 【請求項24】 ネットワークを介して音声情報を送信
    する送信手段と、前記音声情報に対して音声認識対話を
    行う手段が接続された音声認識対話システムにおいて、
    複数の前記音声認識対話を行う手段の中からひとつの前
    記音声認識対話を行う手段を選択を行う音声認識対話選
    択装置であって、前記選択を行う際に前記音声情報の送
    信手段の能力と前記音声認識対話を行う手段の能力とに
    よって一つの前記音声認識対話を行う手段を決定するこ
    とを特徴とする音声認識対話選択装置。
  25. 【請求項25】 複数の音声認識対話を行う手段の中か
    らひとつの音声認識対話を行う手段を選択する音声認識
    対話選択装置であって、 音声認識対話処理を含むサービスの要求または音声認識
    対話を行う手段の変更を受け取る第1の手段と、前記音
    声情報の送信手段の能力を要求する第2の手段と、前記
    音声情報の送信手段から前記音声情報の送信手段の能力
    を送信する第3の手段と、前記音声情報の送信手段の能
    力情報と複数の前記音声認識対話を行う手段の能力を比
    較し、前記音声認識対話を行う手段を一意に決定する第
    4の手段と、前記音声認識対話を行う手段を決定する部
    分から前記音声情報の送信手段へ一意に決定された前記
    音声認識対話を行う手段の情報を通知する第5の手段と
    を有することを特徴とする音声認識対話選択装置。
  26. 【請求項26】 前記音声情報がデジタル化された音声
    データ、又は圧縮された音声データ、又は特徴ベクトル
    であることを特徴とする請求項24または25記載の音
    声認識対話選択装置。
  27. 【請求項27】 前記音声情報の送信手段の能力が、C
    ODECの能力、音声データ形式、録音・合成音声入出
    力機能、サービス内容であることを特徴とする請求項2
    4または25記載の音声認識対話選択装置。
  28. 【請求項28】 前記音声認識対話を行う手段の能力
    が、CODECの能力、音声データ形式、録音・合成音
    声出力機能、サービス内容、認識の能力、稼動情報であ
    ることを特徴とする請求項24または25記載の音声認
    識対話選択装置。
  29. 【請求項29】 複数の音声認識対話を行う手段の中か
    らひとつの音声認識対話を行う手段を選択する音声認識
    対話選択プログラムであって、 音声情報の送信手段から音声認識対話処理を含むサービ
    スの要求を受け取る第1の処理と、前記音声情報の送信
    手段の能力を要求する第2の処理と、前記音声情報の送
    信手段から前記音声情報の送信手段の能力を送信する第
    3の処理と、前記音声情報の送信手段の能力情報と複数
    の前記音声認識対話を行う手段の能力を比較し、前記音
    声認識対話を行う手段を一意に決定する第4の処理と、
    前記音声認識対話を行う手段を決定する部分から前記音
    声情報の送信手段へ一意に決定された前記音声認識対話
    を行う手段の情報を通知する第5の処理と、前記音声情
    報の送信手段と一意に決定された前記音声認識対話を行
    う手段との間で音声認識対話処理を行う第6の処理を有
    する音声認識対話プログラム。
  30. 【請求項30】 前記音声情報の送信手段と前記音声認
    識対話を行う手段との間で音声認識対話処理が行われて
    いる最中に、前記音声認識対話を行う手段から音声認識
    対話処理を他の前記音声認識対話を行う手段へ移行する
    要求を送信する第7の処理と、前記音声情報の送信手段
    へ前記音声情報の送信手段の能力情報を要求する第8の
    処理と、前記音声情報の送信手段から前記音声情報の送
    信手段の能力情報を送信する第9の処理と前記音声情報
    の送信手段の能力情報と複数個の前記音声認識対話を行
    う手段の能力情報とを比較し、前記音声認識対話を行う
    手段を新規に一意に決定する第10の処理と、前記音声
    情報の送信手段へ新規に一意に決定された前記音声認識
    対話を行う手段の情報を通知する第11の処理と、前記
    音声情報の送信手段と新規に一意に決定された前記音声
    認識対話を行う手段との間で音声認識対話処理を行う第
    12の処理をさらに有することを特徴とする請求項29
    記載の音声認識対話プログラム。
  31. 【請求項31】 複数の音声認識対話を行う手段の中か
    らひとつの音声認識対話を行う手段を選択する音声認識
    対話選択プログラムであって、 音声情報の送信手段から音声認識対話処理を含むサービ
    スの要求を受け取る第1の処理と、前記音声情報の送信
    手段の能力を要求する第2の処理と、前記音声情報の送
    信手段から前記音声情報の送信手段の能力を送信する第
    3の処理と、前記音声情報の送信手段の能力情報と複数
    の前記音声認識対話を行う手段の能力を比較し、前記音
    声認識対話を行う手段を一意に決定する第4の処理と、
    前記音声認識対話を行う手段を決定する部分から前記音
    声情報の送信手段へ一意に決定された前記音声認識対話
    を行う手段の情報を通知する第5の処理と、前記音声情
    報の送信手段と一意に決定された前記音声認識対話を行
    う手段との間で音声認識対話処理を行う第6の処理と、
    一意に決定された前記音声認識対話を行う手段からサー
    ビス内容を保持手段へサービス内容を要求する第7の処
    理と、前記サービス内容を保持する部分から一意に決定
    された前記音声認識対話を行う手段へサービス内容を送
    信する第8の処理と、一意に決定された前記音声認識対
    話を行う手段にて送信された前記サービス内容を読み込
    む第9の処理と、前記音声情報の送信手段と一意に決定
    された前記音声認識対話を行う手段との間で音声認識対
    話処理を行う第10の処理を有することを特徴とする音
    声認識対話プログラム。
  32. 【請求項32】 前記音声情報の送信手段と前記音声認
    識対話を行う手段との間で音声認識対話処理が行われて
    いる最中に、前記音声認識対話を行う手段から音声認識
    対話処理を他の前記音声認識対話を行う手段へ移行する
    要求を送信する第11の処理と、前記音声情報の送信手
    段へ前記音声情報の送信手段の能力情報を要求する第1
    2の処理と、前記音声情報の送信手段から前記音声情報
    の送信手段の能力情報を送信する第13の処理と前記音
    声情報の送信手段の能力情報と複数個の前記音声認識対
    話を行う手段の能力情報とを比較し、前記音声認識対話
    を行う手段を新規に一意に決定する第14の処理と、前
    記音声情報の送信手段へ新規に一意に決定された前記音
    声認識対話を行う手段の情報を通知する第15の処理
    と、前記音声情報の送信手段と新規に一意に決定された
    前記音声認識対話を行う手段との間で音声認識対話処理
    を行う第16の処理をさらに有することを特徴とする請
    求項31記載の音声認識対話プログラム。
  33. 【請求項33】 前記音声情報がデジタル化された音声
    データ、又は圧縮された音声データ、又は特徴ベクトル
    であることを特徴とする請求項29から32記載の音声
    認識対話プログラム。
  34. 【請求項34】 前記音声情報の送信手段の能力が、C
    ODECの能力、音声データ形式、録音・合成音声入出
    力機能、サービス内容であることを特徴とする請求項2
    9から32記載の音声認識対話プログラム。
  35. 【請求項35】 前記音声認識対話を行う手段の能力
    が、CODECの能力、音声データ形式、録音・合成音
    声出力機能、サービス内容、認識の能力、稼動情報であ
    ることを特徴とする請求項29から32記載の音声認識
    対話プログラム。
JP2002102274A 2002-04-04 2002-04-04 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム Pending JP2003295890A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2002102274A JP2003295890A (ja) 2002-04-04 2002-04-04 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
EP03708563A EP1394771A4 (en) 2002-04-04 2003-03-12 VOICE-RECOGNIZING CONVERSATION SELECTION DEVICE, SYSTEM, METHOD, AND PROGRAM
US10/476,638 US20040162731A1 (en) 2002-04-04 2003-03-12 Speech recognition conversation selection device, speech recognition conversation system, speech recognition conversation selection method, and program
PCT/JP2003/002952 WO2003085640A1 (fr) 2002-04-04 2003-03-12 Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale
CNB038003465A CN1282946C (zh) 2002-04-04 2003-03-12 话音识别对话选择装置和方法以及话音识别对话装置
TW092107581A TWI244065B (en) 2002-04-04 2003-04-03 Voice identification conversation selection device, voice identification conversation system, voice identification conversation selection method, the record-medium of a voice conversation selection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002102274A JP2003295890A (ja) 2002-04-04 2002-04-04 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム

Publications (1)

Publication Number Publication Date
JP2003295890A true JP2003295890A (ja) 2003-10-15

Family

ID=28786256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002102274A Pending JP2003295890A (ja) 2002-04-04 2002-04-04 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム

Country Status (6)

Country Link
US (1) US20040162731A1 (ja)
EP (1) EP1394771A4 (ja)
JP (1) JP2003295890A (ja)
CN (1) CN1282946C (ja)
TW (1) TWI244065B (ja)
WO (1) WO2003085640A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009505142A (ja) * 2005-08-09 2009-02-05 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム
WO2014020835A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 エージェント制御システム、方法およびプログラム
JP2018173515A (ja) * 2017-03-31 2018-11-08 株式会社アドバンスト・メディア 情報処理システム、情報処理装置、情報処理方法及びプログラム
WO2020129419A1 (ja) * 2018-12-19 2020-06-25 Jeインターナショナル株式会社 音声問合せシステム、音声問合せ処理方法、スマートスピーカー運用サーバー装置、およびプログラム
JP2020173462A (ja) * 2016-10-03 2020-10-22 グーグル エルエルシー コンピュータによるエージェントのための合成音声の選択
JP2021060490A (ja) * 2019-10-04 2021-04-15 エヌ・ティ・ティ・コミュニケーションズ株式会社 制御装置、制御方法及びコンピュータプログラム
JP2022503458A (ja) * 2019-09-12 2022-01-12 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声処理方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
US11663535B2 (en) 2016-10-03 2023-05-30 Google Llc Multi computational agent performance of tasks
JP7439186B2 (ja) 2018-05-03 2024-02-27 グーグル エルエルシー オーディオクエリのオーバーラップ処理の協調

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
FR2853126A1 (fr) * 2003-03-25 2004-10-01 France Telecom Procede de reconnaissance de parole distribuee
US8311822B2 (en) 2004-11-02 2012-11-13 Nuance Communications, Inc. Method and system of enabling intelligent and lightweight speech to text transcription through distributed environment
GB2427500A (en) * 2005-06-22 2006-12-27 Symbian Software Ltd Mobile telephone text entry employing remote speech to text conversion
WO2007050358A2 (en) * 2005-10-21 2007-05-03 Callminer, Inc. Method and apparatus for processing heterogeneous units of work
US9330668B2 (en) * 2005-12-20 2016-05-03 International Business Machines Corporation Sharing voice application processing via markup
US20080154612A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Local storage and use of search results for voice-enabled mobile communications devices
US20080154608A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. On a mobile device tracking use of search results delivered to the mobile device
US20080154870A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Collection and use of side information in voice-mediated mobile search
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
CN101079885B (zh) * 2007-06-26 2010-09-01 中兴通讯股份有限公司 一种提供自动语音识别统一开发平台的***和方法
DE102008033056A1 (de) 2008-07-15 2010-01-21 Volkswagen Ag Kraftfahrzeug mit einem Mikrofon zur akustischen Eingabe eines Befehls zur Bedienung der Funktion des Kraftfahrzeuges
US10387140B2 (en) 2009-07-23 2019-08-20 S3G Technology Llc Modification of terminal and service provider machines using an update server machine
CN102237087B (zh) * 2010-04-27 2014-01-01 中兴通讯股份有限公司 语音控制方法和语音控制装置
US20120059655A1 (en) * 2010-09-08 2012-03-08 Nuance Communications, Inc. Methods and apparatus for providing input to a speech-enabled application program
CN103024169A (zh) * 2012-12-10 2013-04-03 深圳市永利讯科技股份有限公司 一种通讯终端应用程序的语音启动方法和装置
US9413891B2 (en) 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
CN103870547A (zh) * 2014-02-26 2014-06-18 华为技术有限公司 联系人的分组处理方法及装置
JP2018037819A (ja) * 2016-08-31 2018-03-08 京セラ株式会社 電子機器、制御方法及びプログラム
CN106998359A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音识别服务的网络接入方法以及装置
CN109949817B (zh) * 2019-02-19 2020-10-23 一汽-大众汽车有限公司 基于双操作***双语音识别引擎的语音仲裁方法及装置
CN113450785B (zh) * 2020-03-09 2023-12-19 上海擎感智能科技有限公司 车载语音处理的实现方法、***、介质及云端服务器

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708697A (en) * 1996-06-27 1998-01-13 Mci Communications Corporation Communication network call traffic manager
US6292782B1 (en) * 1996-09-09 2001-09-18 Philips Electronics North America Corp. Speech recognition and verification system enabling authorized data transmission over networked computer systems
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
CN1163869C (zh) * 1997-05-06 2004-08-25 语音工程国际公司 用于开发交互式语音应用程序的***和方法
US7251315B1 (en) * 1998-09-21 2007-07-31 Microsoft Corporation Speech processing for telephony API
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6363349B1 (en) * 1999-05-28 2002-03-26 Motorola, Inc. Method and apparatus for performing distributed speech processing in a communication system
US6792086B1 (en) * 1999-08-24 2004-09-14 Microstrategy, Inc. Voice network access provider system and method
US6937977B2 (en) * 1999-10-05 2005-08-30 Fastmobile, Inc. Method and apparatus for processing an input speech signal during presentation of an output audio signal
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
JP2001142488A (ja) * 1999-11-17 2001-05-25 Oki Electric Ind Co Ltd 音声認識通信システム
US6396898B1 (en) * 1999-12-24 2002-05-28 Kabushiki Kaisha Toshiba Radiation detector and x-ray CT apparatus
JP2001222292A (ja) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体
US6505161B1 (en) * 2000-05-01 2003-01-07 Sprint Communications Company L.P. Speech recognition that adjusts automatically to input devices
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
CN1266625C (zh) * 2001-05-04 2006-07-26 微软公司 用于web启用的识别的服务器
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US20030078777A1 (en) * 2001-08-22 2003-04-24 Shyue-Chin Shiau Speech recognition system for mobile Internet/Intranet communication
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
GB2389217A (en) * 2002-05-27 2003-12-03 Canon Kk Speech recognition system
US6834265B2 (en) * 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US20050177371A1 (en) * 2004-02-06 2005-08-11 Sherif Yacoub Automated speech recognition

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009505139A (ja) * 2005-08-09 2009-02-05 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム
JP2009505142A (ja) * 2005-08-09 2009-02-05 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム
WO2014020835A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 エージェント制御システム、方法およびプログラム
US11663535B2 (en) 2016-10-03 2023-05-30 Google Llc Multi computational agent performance of tasks
JP2020173462A (ja) * 2016-10-03 2020-10-22 グーグル エルエルシー コンピュータによるエージェントのための合成音声の選択
JP7005694B2 (ja) 2016-10-03 2022-01-21 グーグル エルエルシー コンピュータによるエージェントのための合成音声の選択
JP2018173515A (ja) * 2017-03-31 2018-11-08 株式会社アドバンスト・メディア 情報処理システム、情報処理装置、情報処理方法及びプログラム
US11989229B2 (en) 2018-05-03 2024-05-21 Google Llc Coordination of overlapping processing of audio queries
JP7439186B2 (ja) 2018-05-03 2024-02-27 グーグル エルエルシー オーディオクエリのオーバーラップ処理の協調
WO2020129419A1 (ja) * 2018-12-19 2020-06-25 Jeインターナショナル株式会社 音声問合せシステム、音声問合せ処理方法、スマートスピーカー運用サーバー装置、およびプログラム
JP2020098308A (ja) * 2018-12-19 2020-06-25 Jeインターナショナル株式会社 音声問合せシステム、音声問合せ処理方法、スマートスピーカー運用サーバー装置、チャットボットポータルサーバー装置、およびプログラム。
JP2022503458A (ja) * 2019-09-12 2022-01-12 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声処理方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
JP7052168B2 (ja) 2019-09-12 2022-04-12 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声処理方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
US11990130B2 (en) 2019-09-12 2024-05-21 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and computer storage medium for processing voices
JP7377668B2 (ja) 2019-10-04 2023-11-10 エヌ・ティ・ティ・コミュニケーションズ株式会社 制御装置、制御方法及びコンピュータプログラム
JP2021060490A (ja) * 2019-10-04 2021-04-15 エヌ・ティ・ティ・コミュニケーションズ株式会社 制御装置、制御方法及びコンピュータプログラム

Also Published As

Publication number Publication date
EP1394771A4 (en) 2005-10-19
US20040162731A1 (en) 2004-08-19
CN1282946C (zh) 2006-11-01
WO2003085640A1 (fr) 2003-10-16
TWI244065B (en) 2005-11-21
EP1394771A1 (en) 2004-03-03
TW200307908A (en) 2003-12-16
CN1514995A (zh) 2004-07-21

Similar Documents

Publication Publication Date Title
JP2003295890A (ja) 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US9761241B2 (en) System and method for providing network coordinated conversational services
CA2345660C (en) System and method for providing network coordinated conversational services
US7421390B2 (en) Method and system for voice control of software applications
US7382770B2 (en) Multi-modal content and automatic speech recognition in wireless telecommunication systems
US8788620B2 (en) Web service support for a multimodal client processing a multimodal application
US7363027B2 (en) Sequential multimodal input
US20060276230A1 (en) System and method for wireless audio communication with a computer
JP2003511914A (ja) 音声認識に基づく情報信号の供給する方法および装置
JP2007529916A (ja) コンピュータでの音声通信
JP2001503236A (ja) パーソナル音声メッセージプロセッサ及び方法
KR100826778B1 (ko) 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법
JPH10177469A (ja) 移動端末音声認識/データベース検索/リソースアクセス通信システム
EP1376418B1 (en) Service mediating apparatus
JP2002091473A (ja) 情報処理装置
JP4224305B2 (ja) 対話情報処理システム
JP3925326B2 (ja) 端末通信システム、連携サーバ、音声対話サーバ、音声対話処理方法および音声対話処理プログラム
JP2004295017A (ja) マルチモーダルシステムおよび音声入力方法
KR20060096654A (ko) 멀티모달 플랫폼을 이용한 모바일 서비스 시스템 및 그 방법
KR20090002264A (ko) 위피 플랫폼 기반 음성 정보 검색 서비스 제공 방법 및시스템
JP2002044258A (ja) プログラムを起動する電話音声応答装置
JP2003271376A (ja) 情報提供システム
JP2004354711A (ja) 音声認識システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041207

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050323

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050628