WO2005091128A1

WO2005091128A1 - 音声処理装置とシステム及び音声処理方法

Info

Publication number: WO2005091128A1
Application number: PCT/JP2005/004959
Authority: WO
Inventors: Eiko Yamada
Original assignee: Nec Corporation
Priority date: 2004-03-18
Filing date: 2005-03-18
Publication date: 2005-09-29
Also published as: JPWO2005091128A1; JP4725512B2; US20070143102A1; US7835728B2

Abstract

　クライアント（１０）は、サービス要求信号をＷｅｂサーバ（２０）に送信する。サービス要求信号を受信したＷｅｂサーバは、セッション毎のＩＤを生成し、このＩＤを画面情報とともにクライアントに送信する。その後、クライアントは、入力された音声情報をＩＤとともに音声処理サーバ（３０）に送信する。音声情報及びＩＤを受信した音声処理サーバは、音声情報の処理を行い、その処理結果をＩＤとともにＷｅｂサーバに送信する。Ｗｅｂサーバは、音声処理サーバからのＩＤに対応させて、音声処理サーバでの音声処理結果を反映した情報を用意し、クライアントに送信する。このように、クライアントとＷｅｂサーバと音声処理サーバが、セッション毎のＩＤを共用することにより、Ｗｅｂサーバからクライアントにダウンロードされる情報と、クライアントから音声処理サーバへ送信される音声情報との関係をサーバ側で掌握することが可能となる。その結果、Ｗｅｂサーバ及び音声処理サーバに複数台のクライアントからアクセスされた場合であっても、ユーザは、音声処理結果を反映させた適正な情報をダウンロードすることが可能となる。

Description

明細書

音声処理装置とシステム及び音声処理方法

技術分野

[0001] 本発明は、音声処理技術に関し、特に、端末 (クライアント)側で入力された音声情報をネットワークを通して音声処理装置に送信して処理を行うシステム、装置及び方法に関する。

背景技術

[0002] この種の従来のシステムとして、携帯電話端末 (クライアント)から、 Phone-to機能等を用いて音声処理サーバに電話接続し、ユーザの発声を音声処理 (音声認識、話者照合等の処理)し、結果を音声処理サーノから Webサーバに送信し、 Webサーバにて処理結果を反映させた画面を作成し、携帯電話端末にて画面をダウンロードして表示する枠組みにおいて、音声処理と画面とを連動させた技術が知られている（例えば、特許第 3452250号公報 (文献 1)を参照)。この従来のシステムでは、図 1に示すように、携帯電話端末 11と音声処理サーバ 13とは回線交換網 15を通してデータの送受信を行い、携帯電話端末 11と Webサーバ 12とはパケット網 14を通してデータの送受信を行う。

[0003] Webサーバ 12と音声処理サーバ 13に、複数台の携帯電話端末 11からアクセスがある場合、音声処理した結果を、画面に反映させて携帯電話端末 11に表示させるために、 Webサーバ 12から携帯電話端末 11にダウンロードされる画面と、携帯電話端末 11力音声処理サーバ 13へ送信される音声データとの関係を把握する技術が必要となる。

[0004] 図 1に示した従来のシステムでは、携帯電話端末 11の端末 IDと、携帯電話端末番号とを紐付けしておくことで、画面情報をダウンロードする端末と、音声データを送信する端末とを、 Webサーバ 12側と音声処理サーバ 13とで一意に把握する機構とされている。

[0005] 一方、近年、携帯情報端末 (PDA)や車載端末等のクライアントから特徴ベクトルや圧縮された音声データ等の音声情報を、パケット網を通して音声処理サーバに送信し、音声処理 (音声認識、話者照合等の処理)を行う技術が知られている (例えば、特開 2003— 5949号公報 (文献 2)を参照)。

[0006] 文献 2に記載されたシステムでは、処理結果を表に示したり、処理結果をもとに検索した結果を、画面に示したりするようなコンテンツを動作させることが可能となる。発明の開示

発明が解決しょうとする課題

[0007] 上記文献 2に記載されたシステムでは、パケット網を通してデータの送受信を行うような音声処理の枠みにおいても、クライアントにダウンロードされた画面とクライアントから送信された音声データとの関係をサーバ側で把握する技術が必要である。

[0008] また、上記文献 1の従来技術は、電話番号と携帯電話端末端末 IDを紐付けする方法であるため、電話番号を必要としな!、パケット網を用いた前述の音声処理の枠組みにおいては、使用することができない技術である。そのため、パケット網を通してクライアント、音声処理サーバ、 Webサーバ間でデータの送受信を行う音声処理の枠組みにおいて、クライアントにダウンロードされた画面とクライアントから送信された音声データとの関係をサーバ側で把握する技術が新たに必要となる。

[0009] したがって、本発明の目的は、 Webサーバ等の情報提供サーバ（情報提供装置）力クライアント (端末）にダウンロードされる情報と、クライアントから音声処理サーバ (音声処理装置)へ送信される音声情報との関係をサーバ側で掌握可能とすることにある。

[0010] また、本発明の他の目的は、音声処理サーバ及び情報提供サーバに複数台のクライアントからアクセスされた場合であっても、音声処理結果を反映させた適正な情報をダウンロードできるようにすることにある。課題を解決するための手段

[0011] このような目的を達成するために、本発明に係る音声処理システムは、入力された音声情報を送信するとともに受信した情報を出力する端末と、端末からの音声情報に基づき音声処理を行う音声処理装置と、音声処理装置での音声処理結果を受け取りこの音声処理結果を反映させた情報を端末に送信する情報提供装置とを備え、端末、音声処理装置及び情報提供装置は、音声情報に基づいて音声処理装置及び情報提供装置で行われる一連の処理に対応する処理識別情報を共用することを特徴とする。

[0012] また、本発明に係る音声処理方法は、端末が、入力された音声情報を音声処理装置に送信するステップと、音声処理装置が、端末からの音声情報の音声処理を行うステップと、音声処理結果を情報提供装置に送信するステップと、情報提供装置が、音声処理装置での音声処理結果を反映した情報を用意するステップと、用意した情報を端末に送信するステップとを備え、端末、音声処理装置及び情報提供装置が、音声情報に基づいて音声処理装置及び情報提供装置で行われる一連の処理に対応する処理識別情報を共用することを特徴とする。

[0013] また、本発明に係る情報提供サーバ装置は、クライアントからサービス要求信号を受信する第 1の受信手段と、サービス要求信号が受信されたときに、クライアントからの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成手段と、処理識別情報に基づきクライアントに提示する第 1の情報を生成する手段と、処理識別情報及び第 1の情報をクライアントに送信する第 1の送信手段と、クライアントからの音声信号及び処理識別情報を受け取って音声処理を行う音声処理サーバから、音声処理結果及び処理識別情報を受信する第 2の受信手段と、音声処理サーバからの処理識別情報に対応させて音声処理結果を反映した第 2の情報を生成する手段と、第 2の情報をクライアントに送信する第 2の送信手段とを備えることを特徴とする。

[0014] また、本発明に係るクライアント装置は、当該クライアント装置からの音声情報の音声処理を行う音声処理サーバと、音声処理サーバでの音声処理結果を反映させた情報を当該クライアント装置に送信する情報提供サーバとによる一連の処理に対応する処理識別情報として、当該クライアント装置の固有識別情報を出力する固有識別情報出力手段と、サービス要求時、サービス要求信号及び処理識別情報を情報提供サーバに送信する第 1の送信手段と、入力された音声情報を処理識別情報とともに音声処理サーバに送信する第 2の送信手段とを備えることを特徴とする。

[0015] また、本発明に係る音声処理サーバ装置は、クライアントからの音声処理要求信号を受信する第 1の受信手段と、音声処理要求信号が受信されたときに、クライアントからの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成手段と、処理識別情報をクライアントに送信する第 1の送信手段と、クライアントからの音声情報及び処理識別情報を受信する第 2の受信手段と、クライアントからの音声情報の音声処理を行う音声処理実行手段と、音声処理実行手段による音声処理結果及びクライアントからの処理識別情報を、処理識別情報に対応させて音声処理結果を反映した情報を生成しクライアントに送信する情報提供サーバに送信する送信手段とを備えることを特徴とする。

[0016] また、本発明に係るプログラムは、上記情報提供サーバ装置、上記クライアント装置または上記音声処理サーバ装置を構成するコンピュータに、それぞれの装置の機能を実現させるためのプログラムである。

[0017] また、本発明に係る情報処理システムは、クライアントと、複数のサーバとを備え、

(A)クライアントからの要求に基づき複数のサーバのうち少なくとも一のサーバで実行される処理に関連して、要求に応えるために他のサーバでも処理が行われ、

(B)他のサーバと一のサーバとの間で処理結果の授受が行われ、

(C)一のサーバで処理結果に基づき、クライアントからの要求に対応する応答情報が作成される、

一連の処理 (A)、（B)、（C)が、クライアント、一及び他のサーバで共用される共通の処理識別情報で管理されることを特徴とする。

発明の効果

[0018] 本発明では、クライアント (端末)、音声処理サーバ (音声処理装置)及び情報提供サーバ (情報提供装置)が、音声情報に基づ、て音声処理サーバ及び情報提供サーバで行われる一連の処理に対応する処理識別情報を共用することにより、情報提供サーノからクライアントにダウンロードされる情報と、クライアントから音声処理サーバへ送信される音声情報との関係をサーバ側で掌握することが可能となる。その結果、音声処理サーバ及び情報提供サーバに複数台のクライアントからアクセスされた場合であっても、ユーザは、音声処理結果を反映させた適正な情報をダウンロードすることがでさる。

[0019] これによつて、例えば、ユーザが発声した音声情報をもとに検索等の処理を行った結果を画面に表示する、又は、ユーザが発声した音声情報をもとに適切な情報をダゥンロードするといつた、音声処理と画面とを連動させたコンテンツの提供が可能となる。

図面の簡単な説明

[0020] [図 1]図 1は、従来のシステムの構成を示す図である。

[図 2]図 2は、本発明の一実施例の構成を示す図である。

[図 3]図 3は、本発明の第 1の実施例の構成を示す図である。

[図 4]図 4は、本発明の第 2の実施例の構成を示す図である。

[図 5]図 5は、本発明の第 3の実施例の構成を示す図である。

[図 6]図 6は、本発明の第 1の具体例におけるクライアントの構成を示す図である。

[図 7]図 7は、本発明の第 1の具体例における Webサーバの構成を示す図である。

[図 8]図 8は、本発明の第 1の具体例における音声処理サーバの構成を示す図である

[図 9]図 9は、本発明の第 2の具体例におけるクライアントの構成を示す図である。

[図 10]図 10は、本発明の第 2の具体例における Webサーバの構成を示す図である。

[図 11]図 11は、本発明の第 3の具体例における音声処理サーバの構成を示す図である。

[図 12]図 12は、本発明の第 1の具体例の動作を説明するための図である。

[図 13]図 14は、本発明の第 2の具体例の動作を説明するための図である。

[図 14]図 14は、本発明の第 3の具体例の動作を説明するための図である。

[図 15]図 15は、本発明の第 1の具体例におけるクライアントに表示される画面 (ぺージ）の推移の一例を説明するための図である。

[図 16]図 16は、本発明の第 1の具体例におけるクライアントに表示される画面 (ぺージ）の推移の他の例を説明するための図である。

発明を実施するための最良の形態

[0021] 以下、本発明の実施例について、図面を参照しながら詳細に説明する。

[0022] 図 2を参照すると、本発明の実施例では、クライアント (端末） 10と、 Webサーバ (情報提供サーバ、情報提供装置) 20と、音声処理サーバ (音声処理装置) 30とがネットワーク接続されている。クライアント 10は、音声データ入力部、及び、ブラウザ機能を具備し、ネットワークとして IP網等のパケット網 40に接続する通信機能を具備する。クライアント 10と Webサーバ 20と音声処理サーバ 30は、音声データに基づいて Web サーバ 20と音声処理サーバ 30で行われる一連の処理に対応する処理識別情報を共用する。処理識別情報としては、例えば発話処理のセッションに対応して付与される ID (「セッション ID」という）、又は、クライアント 10が保持する固有 IDを用いることができる。このような処理識別情報を共用することで、 Webサーバ 20からクライアント 10 にダウンロードされる画面と、クライアント 10から音声処理サーバ 30に送信される音声データとの対応関係を把握可能として 1、る。

[0023] [第 1の実施例]

図 3は、本発明の第 1の実施例の構成を示す図であり、セッション毎に生成されるセッシヨン IDを生成するセッション ID生成部を、 Webサーバ 20が具備して!/、る。

[0024] 図 3を参照して、本実施例の処理の手順を説明する。クライアント 10から Webサーノ 20に音声処理を使用するサービスの要求があった時点で、 Webサーバ 20にてセッシヨン IDが生成される。

[0025] 生成されたセッション IDは、 Webサーバ 20から画面情報を、クライアント 10がダウンロードする時点で、 Webサーバ 20からクライアント 10に送信される。セッション IDの送信の仕方として、例えば、画面情報に含めて送信してもよい。

[0026] クライアント 10は、入力音声の音声情報を音声処理サーバ 30に送信する際に、 W ebサーバ 20から受信したセッション IDを、音声処理サーバ 30へ送信する。 IDの送信の仕方としては、音声情報に含めるようにしてもよいし、別途送信してもよい。

[0027] 音声処理サーバ 30では、受信した音声情報をもとに、音声処理 (音声認識、話者照合等）を行う。音声処理サーバ 30は、音声処理結果を Webサーバ 20に送信する時点でセッション IDも送信する。セッション IDの送信の仕方については、音声処理結果に含めるようにしてもよい。

[0028] Webサーバ 20ではセッション Iひ f青報により、音声処理サーバ 30での音声処理結果とサービス要求のあったクライアント 10とを関連付けることが可能となり、処理結果を反映させた画面を、クライアント 10にダウンロードさせることが可能となる。その際、 Webサーバ 20は、発話の音声認識結果等の音声処理結果情報を含む画面 (ぺージ）をクライアント 10に送信し、クライアント 10からの選択により、音声処理結果に対応する画面情報をダウンロードする構成としてもょ、。

[0029] [第 2の実施例]

図 4は、本発明の第 2の実施例の構成を示す図であり、クライアント 10が保持する I Dを、固有 IDとして用いる構成を具備している。予めクライアント 10が保持する IDをクライアント固有の ID (固有 ID)として用いる場合、又は、予めクライアント 10が保持する IDを用いて、クライアント固有の ID (固有 ID)を生成する場合の処理手順につ!、て説明する。

[0030] クライアント 10から Webサーバ 20に音声処理を使用するサービスを要求する時に、クライアント 10は予め保持する IDを固有 IDとして、 Webサーバ 20へ通知する。あるいは、クライアント 10側でクライアント 10が予め保持する IDを用いて、クライアント固有の IDを新たに生成し、生成した固有 IDを、 Webサーバ 20へ通知する。固有 IDの生成の仕方として、例えば、予め保持する IDにタイムスタンプ情報を付与するようにしてちよい。

[0031] 次に、 Webサーノ 20からクライアント 10に対して、要求のあったサービスの画面情報がダウンロードされる。

[0032] 次に、 Webサーバ 20からダウンロードされた画面がクライアント 10の画面表示部 1 40に表示され、クライアント 10では、ユーザが入力し音声信号を受けて音声情報に変換し、音声処理サーバ 30へ音声情報を送信する時点で、固有 IDも送信する。

[0033] 音声処理サーバ 30では、受信した音声情報をもとに、音声処理を行う。音声処理サーバ 30は、音声処理結果を、 Webサーバ 20に送信する時点で、固有 IDも Webサーバ 20に送信する。

[0034] Webサーバ 20は、音声処理サーバ 30から音声処理結果と固有 IDを受け取る。 W ebサーバ 20では、音声処理サーバ 30からの固有 IDにより、音声処理結果と、サービス要求のあったクライアント 10とを関連付けることが可能となり、音声処理結果を反映させた画面情報を、クライアント 10にダウンロードさせることが可能となる。その際、 Webサーバ 20は、発話の音声認識結果等の音声処理結果情報を含む画面 (ぺージ）をクライアント 10に送信し、クライアント 10からの選択により、音声処理結果に対応する画面情報をダウンロードする構成としてもょ、。

[0035] [第 3の実施例]

図 5は、本発明の第 3の実施例の構成を示す図であり、セッション毎に生成されるセッシヨン IDを生成するセッション ID生成部を、音声処理サーバ 30が具備している。図 5を参照して、本実施例の処理手順について説明する。クライアント 10から音声処理サーバ 30に音声情報送信のためのアクセスが行われた時点で、音声処理サーバ 30 のセッション ID生成部 31にてセッション IDが生成され、クライアント 10に通知される。

[0036] 次に、クライアント 10は、受信したセッション IDを Webサーバ 20に通知する。

[0037] 音声処理サーバ 30では、クライアント 10から受信した音声情報をもとに、音声処理を行う。音声処理サーバ 30は、音声処理した結果を、 Webサーバ 20に送信する時点でセッション IDも、 Webサーバ 20に送信する。

[0038] Webサーバ 20では、セッション Iひ f青報により、音声処理結果とサービス要求のあつたクライアントとを関連付けることが可能となり、処理結果を反映させた画面をクライアント 10にダウンロードさせることが可能となる。その際、 Webサーバ 20は、発話の音声認識結果等の音声処理結果情報を含む画面 (ページ)をクライアント 10に送信し、クライアント 10からの選択により、音声処理結果に対応する画面情報をダウンロードする構成としてちよい。

[0039] 図 3に示す実施例において、 Webサーバ 20からクライアント 10にセッション IDを送信する仕方として、

•画面（HTML、 XML等）内のタグ情報として埋め込む力、あるいは、

•パケットのヘッダ情報として埋め込む、

ようにしてちょい。

[0040] 図 3乃至図 5を参照して説明した前記各実施例において、クライアント 10から音声処理サーバ 30にセッション IDを送信する送信方法として、

•音声情報のパケットのヘッダ情報として埋め込む力、あるいは、

•音声情報の一部として埋め込む、

ようにしてちょい。 [0041] 図 3乃至図 5を参照して説明した前記各実施例において、音声処理サーバ 30から Webサーバ 20にセッション IDを送信する方法として、

•音声処理結果情報のパケットのヘッダ情報として送信するか、あるいは •音声処理結果の一部として含める、

ようにしてちょい。

以下、具体例に即してさらに詳細に説明する。

[0042] [第 1の具体例]

図 2を参照して、本発明の音声処理システムの第 1の具体例について説明する。クライアント 10は、ネットワーク（パケット網） 40を介して、 Webサーバ 20と音声処理サーバ 30に接続される。クライアントとして、携帯端末、 PDA (Personal Digital Assistant)、車載端末、 PC (パソコン）、ホーム端末等を挙げることができる。また、 W ebサーバ 20、音声処理サーバ 30としては、 OS (オペレーティングシステム）として、 WindowsXP (登録商標）、 Windows2000 (登録商標）等を搭載したコンピュータや、 OSとして Solaris (登録商標）を搭載したコンピュータを一例として挙げることができる。ネットワーク (パケット網) 40として、インターネット (有線 Z無線）、イントラネット等の IP網が用いられる。

[0043] 本具体例では、 Webサーバ 20力セッション IDを生成するセッション ID生成部を有する。

[0044] 図 6は、本発明の第 1の具体例のクライアント 10の構成を示す図である。図 6を参照すると、クライアント 10は、音声入力部として機能し音声データを入力するデータ入力部 110と、画面表示部 140と、データ通信部 130と、制御部 120を備えている。

[0045] 図 7は、 Webサーバ 20の構成を示す図である。図 7を参照すると、 Webサーバ 20 は、データ通信部 210と、コンテンツ管理部（情報管理手段） 220と、セッション ID生成部 230を備えている。

[0046] 図 8は、音声処理サーバ 30の構成を示す図である。図 8を参照すると、音声処理サーバ 30は、データ通信部 310と、制御部 320と、音声処理実行部 330を備えている

[0047] 図 12は、本具体例のシーケンス動作を説明するための図である。図 6乃至図 8、図 12を参照して、本具体例について説明する。

[0048] クライアント 10より Webサーバ 20へ音声処理が含まれるサービスの要求が行われる（ステップ S101)。具体的には、クライアント 10に表示された画面上のボタンのタリック操作により、サービス要求信号が、 Webサーバ 20に送信され、 Webサーバ 20にて、サービスを実行する CGI (Common Gateway Interface)等のプログラムが起動される。

[0049] Webサーバ 20では、クライアント 10からのサービス要求信号を、データ通信部 210 にて受信し (ステップ S201)、コンテンツ管理部 220に送信する。

[0050] コンテンツ管理部 220では、サービスのチェック後、サービス要求信号をセッション I D生成部 230に送信する。セッション ID生成部 230は、サービス要求信号を受信し、セッション IDを生成する（ステップ S202)。セッション ID生成の仕方として、例えば、所定の初期値力アクセス数分、カウントアップすることで、 IDを生成するようにしてもよい。

[0051] 生成されたセッション IDは、コンテンツ管理部 220に送信される。コンテンツ管理部 220では、受信したセッション IDをもとに、クライアント 10にダウンロードする画面の生成を行う（ステップ S203)。画面の生成の仕方としては、結果取得用のボタンのリンク先 URL (Uniform Resource Locator)情報にセッション IDを含ませるようにしてもよい。

[0052] 次に、 Webサーノ 20のコンテンツ管理部 220にて、生成された画面が、 Webサーノ 20のデータ通信部 210を通ってクライアントにダウンロードされる（ステップ S204) 。この時点で、 Webサーノ 20力ら、セッション IDもクライアント 10に送信される。セッシヨン IDの送信方法として、

•Webサーバ 20にて生成された画面中のタグ情報として記述する力あるいは、 •パケットのヘッダとして記述する

ようにしてちょい。

[0053] クライアント 10においては、 Webサーノ 20から受信した画面情報とセッション IDをデータ通信部 130にて受信し (ステップ S102)、クライアント 10の制御部 120に送信する。画面情報については、制御部 120から画面表示部 140に送信され、表示される。クライアント 10上の画面情報には、例えばユーザによる音声入力等の選択 Z督促が表示される。

[0054] 次に、ユーザの発声した音声は、クライアント 10のデータ入力部 110に入力され (ステツプ S104)、クライアント 10内の制御部 120に送信される。クライアント 10の制御部 120にて、必要なデータ処理が行われる（ステップ S 105)。データ処理として、例えば、入力音声のデジタル化処理、音声検出処理、音声分析処理、音声圧縮処理等が行われる。音声データについては、例えば、デジタル化された音声データ、圧縮された音声データ、特徴ベクトル等が用いられる（詳細は「確率モデルによる音声認識」、中川聖ー著、 ρ.10-12、社団法人電子情報通信学会 (文献 3)を参照)。

[0055] このデータ処理の際に、セッション IDを音声データに含める処理が行われる。具体的には、

•音声データパケットのヘッダ情報として含める力、あるいは、

•音声データの一部として含める

ようにしてちょい。

[0056] クライアント 10の制御部 120で処理されたデータは、逐次的に、データ通信部 130 より、音声処理サーバ 30に送信される。

[0057] 音声処理サーバ 30では、クライアントより逐次的に送信されたデータを、データ通信部 310にて受信し (ステップ S301)、制御部 320にて、音声データであると判断した場合、音声処理実行部 330に送信する。

[0058] 音声処理実行部 330では、音声処理に必要とする、いずれも図示されない、認識エンジン、認識用辞書、合成エンジン、合成用辞書、話者照合エンジン等のうちの少なくも 1つを具備しており、逐次的に、音声処理を行う（ステップ S302)。

[0059] なお、音声処理については、クライアント 10から送信されるデータの種類によって処理内容が変わる。例えば、送信されるデータが圧縮音声データである場合には、圧縮データの伸張、音声分析、マッチング処理を行う。一方、クライアント 10から特徴ベクトルが送信される場合には、マッチング処理のみを行う。

[0060] 音声処理サーバ 30の音声処理実行部 330にお、て、音声処理を終了すると、音声処理結果は、音声処理実行部 330から、制御部 320を通り、データ通信部 310に送信され、データ通信部 310から、 Webサーバ 20へ送信される（ステップ S303)。 [0061] 音声処理サーバ 30から Webサーバ 20へ送信される音声処理結果については、認識結果情報や、話者照合情報、音声 (合成音声、入力音声を変換した音声等)等の少なくともいずれか 1つを含む。その際、セッション IDも、音声処理サーバ 30から、 W ebサーバ 20へ送信される。セッション IDの送信方法として、

'音声処理結果送信のパケットのヘッダ情報として含める力あるいは、

•音声処理結果の一部として送信する

ようにしてちょい。

[0062] Webサーバ 20は、音声処理結果と、セッション IDとを、データ通信部 210にて受信し (ステップ S 205)、コンテンツ管理部 220に送信する。

[0063] コンテンツ管理部 220では、音声処理結果に基づく結果情報 (例えば音声認識結果情報、後述する図 15、図 16の画面 1003等参照）、あるいは、音声処理結果を反映させたコンテンツ情報 (画面、音声、動画等）を、セッション IDごとに作成する (ステップ S 206)。

[0064] そして、 Webサーノ 20力ら、サービス要求が行われたクライアント 10に、セッション I Dごとに作成された、結果情報とコンテンツ、あるいは、コンテンツのみがダウンロードされ (ステップ S207)、クライアント 10でダウンロードされた結果情報/コンテンツが受信される (ステップ S 106)。

[0065] 具体的には、音声処理開始時に、 Webサーバ 20からクライアント 10にダウンロードされて!/、る画面の結果取得用ボタンのリンク先 URLを、セッション IDが含まれた URL する。そして、コンテンツ管理部 220によって、 Webサーバ 20で音声処理結果を反映させたコンテンツ情報を、セッション IDが含まれた URLによって表される場所に配置する。これにより、ユーザが、クライアント 10の結果取得用ボタン (例えば図 15の画面 1003の「地図を表示」ボタン）を押下することにより、セッション IDが含まれた URL が指定され、この URLに対応するコンテンツ情報（例えば図 15の画面 1004の地図画面）力ダウンロードされる。

[0066] 本具体例は、

•クライアント 10、音声処理サーバ 30間で対話を行う場合、

•音声処理サーバ 30が、音声処理結果を利用して、検索等の処理を行う場合、 •Webサーバ 20が、音声処理結果を利用して、検索等の処理を行う場合等、様々な処理に利用可能である。

[0067] なお、図 12に一例を示したクライアント 10、 Webサーバ 20、音声処理サーバ 30の各処理は、クライアント 10、 Webサーバ 20、音声処理サーバ 30を構成する計算機（コンピュータ）上で実行されるプログラムによりその機能を実現するようにしてもよい。また、本発明は、 Webサーバ 20、音声処理サーバ 30を 1つの計算機上に実現してもよいし、リモートのコンピュータで実現してもよい。この場合、 Webサーバ 20、音声処理サーバ 30間の IDの受け渡しは、サブルーチンコールの引数としてもよい。あるいは、 Webサーバ 20、音声処理サーバ 30間でプロセス間通信により変数の引渡しを行う場合、共通に参照される変数としてもよい。さらに、本具体例は、サーバに処理要求を行うクライアントがサーバと同一計算機上に実装されたシステムに対しても本発明を適用することができる。すなわち、複数のサーバが協調連携してクライアントの要求を遂行するための任意の管理システムに適用することができる。

[0068] [第 2の具体例]

次に、本発明の第 2の具体例について説明する。本具体例では、図 4に示すように、予めクライアント 10が保持する IDを、クライアント固有の ID (固有 ID)として用いる場合、又は、予めクライアントが保持する IDを用いて、クライアント固有の ID (固有 ID )を生成する構成とされる。

[0069] 図 9は、本発明の第 2の具体例のクライアント 10の構成を示す図である。図 9を参照すると、クライアント 10は、音声入力部として機能し音声データを入力するデータ入力部 110と、画面表示部 140と、データ通信部 130と、制御部 120と、固有 ID保持生成部（固有識別情報出力手段） 150を備えている。

[0070] 図 10は、 Webサーバ 20の構成を示す図である。図 10を参照すると、 Webサーバ 2 0は、データ通信部 210と、コンテンツ管理部 220とを備えている。

[0071] 音声処理サーバ 30は、図 8に示す構成とされ、データ通信部 310と、制御部 320と、音声処理実行部 330を備えている。

[0072] 図 13は、本具体例のシーケンス動作を説明するための図である。図 9、図 10及び図 8、図 13を参照して、本具体例について説明する。 [0073] クライアント 10から Webサーバ 20に音声処理を使用するサービスを要求する時点で、クライアント 10は、固有 ID保持生成部 150にて、クライアント 10が予め保持する I Dを (端末識別情報)、固有 ID (固有識別情報)として制御部 120に送信する (ステツプ Sl l l)。あるいは、ステップ S111では、固有 ID保持生成部 150が予め保持する I Dを用いてクライアント固有の IDを生成し、生成した固有 IDを制御部 120へ通知する。固有 IDの生成の仕方として、予め保持する IDに、タイムスタンプ情報を付与するようにしてもよい。制御部 120は、サービス要求と IDを受信し、受信した固有 IDを、データ通信部 130を通じて、 Webサーバ 20へ送信する（ステップ S 112)。

[0074] Webサーバ 20は、受信した音声処理が含まれるサービス要求信号と、固有 IDをデータ通信部 210にて受信する (ステップ S211)。データ通信部 210は、コンテンツ管理部 220に、サービス要求信号と固有 IDを送信する。

[0075] コンテンツ管理部 220では、サービスのチェック後、受信した固有 IDをもとに、クライアント 10にダウンロードする画面（第 1の情報）の生成を行う（ステップ S212)。画面の生成の仕方 (方法）としては、前記具体例と同様、結果取得用のボタンのリンク先 UR L (Uniform Resource Locator)情報にセッション IDを含ませるようにしてもよい。

[0076] 次に、コンテンツ管理部 220にて生成された画面力データ通信部 210を通ってクライアント 10にダウンロードされる（ステップ S213)。

[0077] クライアント 10では、 Webサーバ 20から受信した画面情報を、データ通信部 130で受信して (ステップ S113)、制御部 120に送信する。画面情報については、制御部 1 20力ゝら、画面表示部 140に送信され、表示される（ステップ S 114)。

[0078] 次に、ユーザの発声した音声は、クライアント 10のデータ入力部 110に入力され (ステツプ S115)、制御部 120に送信される。制御部 120にて、前記具体例で説明したデータ処理が行われる。このデータ処理の際に、固有 IDを、音声データに含める処理が行われる。

[0079] 処理されたデータは、逐次的に、データ通信部 130より音声処理サーバ 30に送信される（ステップ S 116)。固有 IDを音声データに含める処理については、前記具体例と同様とされる。

[0080] 音声処理サーバ 30では、クライアント 10より、逐次的に送信されたデータを、データ通信部 310で受信し (ステップ S311)、制御部 320にて、音声データであると判断し、音声処理実行部 330に送信する。

[0081] 音声処理サーバ 30において、音声処理実行部 330は、前記具体例と同様、音声処理 (音声認識、話者照合等）に必要とする、いずれも図示されない、認識エンジン、認識用辞書、合成エンジン、合成用辞書、話者照合エンジン等のうち少なくとも 1つを具備しており、逐次的に音声処理を行う（ステップ S312)。音声処理終了後、音声処理結果は、音声処理実行部 330から制御部 320を通り、データ通信部 310に送信され、データ通信部 310から、 Webサーバ 20へ送信される（ステップ S313)。この時点で、固有 IDも、音声処理サーバ 30から、 Webサーバ 20へ送信される。送信方法については、前記具体例と同様とされる。

[0082] Webサーバ 20は、音声処理サーバ 30から送信された音声処理結果と固有 IDを、データ通信部 210にて受信し (ステップ S214)、コンテンツ管理部 220に送信する。

[0083] Webサーバ 20のコンテンツ管理部 220では、固有 IDに対応させて、音声処理結果を反映させた情報 (第 2の情報：音声処理結果情報と該音声処理結果に対応するコンテンツ情報、又は該音声処理結果に対応するコンテンツ情報）を、用意する (ステップ S215)。なお、 Webサーバ 20のコンテンツ管理部 220では、クライアントの固有 I Dから、音声処理結果を反映させた情報の送信先のクライアント 10を判別できる。

[0084] そして、 Webサーバ 20は、サービス要求が行われたクライアント 10に、固有 IDごとに作成された、結果情報 (例えば図 15の画面 1003の音声認識結果画面）とコンテンッ（例えば図 15の画面 1004の地図画面）がダウンロードされる力あるいは、コンテンッ（例えば図 15の画面 1004の地図画面）のみがダウンロードされ (ステップ S216) 、クライアント 10がダウンロードされた情報を受信し (ステップ S117)、クライアント 10 の画面に表示される。作成されたコンテンツ情報のダウンロード方法については、前記具体例と同様とされる。

[0085] 本具体例は、

•音声処理サーバ 30が処理結果を利用して検索等の処理を行う場合、

•Webサーバ 20が、音声処理結果を利用して検索等の処理を行う場合等、様々な処理に利用可能である。

[0086] なお、図 13に一例を示したクライアント 10、 Webサーバ 20、音声処理サーバ 30の各処理は、クライアント 10、 Webサーバ 20、音声処理サーバ 30を構成する計算機（コンピュータ）上で実行されるプログラムによりその機能を実現するようにしてもよい。

[0087] [第 3の具体例]

次に、本発明の第 3の具体例について説明する。本具体例は、セッション IDを生成する処理部を音声処理サーバ 30が具備している。図 11は、音声処理サーバ 30の構成を示す図である。図 11を参照すると、本具体例の音声処理サーバ 30は、図 8に示した音声処理サーバ 30にセッション ID生成部 340が追加されている。なお、本具体例のクライアント 10は、図 6に示す構成とされ、 Webサーバ 20は図 10に示す構成とされる。以下、本具体例の動作について説明する。

[0088] 図 14は、本具体例のシーケンス動作を説明するための図である。図 6、図 10、図 1 1、図 14を参照して、本具体例について説明する。

[0089] クライアント 10より Webサーバ 20へ音声処理が含まれるサービスの要求が行われる（ステップ S 121)。

[0090] Webサーバ 20側は、サービス要求信号をデータ通信部 210にて受信し (ステップ S 221)、コンテンツ管理部 220に送信する。コンテンツ管理部 220では、サービス要求信号を受信し、サービスのチェック後、要求されたサービスの画面を生成し (ステップ S222)、データ通信部 210を通じてクライアント 10へ送信 (ダウンロード)する（ステツプ S223)。

[0091] 次に、クライアント 10は、 Webサーバ 20からの画面情報を受信し (ステップ S 122)、さらに音声情報を音声処理サーバ 30へ送信するために音声処理サーバ 30に音声処理要求信号を送信する (ステップ S 123)。

[0092] 音声処理サーバ 30では、データ通信部 310にて、音声処理要求信号を受信し (ステツプ S321)、制御部 320に送信する。制御部 320は、音声処理要求信号をセッシヨン ID生成部 340に送信する。

[0093] 音声処理サーバ 30のセッション ID生成部 340は、セッション ID要求信号を受信し

、セッション IDを生成する。セッション ID生成の仕方は、前記具体例で説明したものと同様とされる。

[0094] 音声処理サーバ 30のセッション ID生成部 340によって生成されたセッション IDは、音声処理サーバ 30のセッション ID生成部 340から制御部 320を通り、データ通信部 310に送信される。

[0095] 音声処理サーバ 30のデータ通信部 310は、クライアント 10へセッション IDを送信する（ステップ S322)。

[0096] クライアント 10は、音声処理サーバ 30からセッション IDを受信し (ステップ S 124)、セッション IDをデータ通信部 130を通じて、制御部 120に送信する。

[0097] 次に、クライアント 10のデータ通信部 130を通じて、セッション IDを、 Webサーバ 20 へ送信する（ステップ S 125)。

[0098] Webサーバ 20では、データ通信部 210にてセッション IDを受信し (ステップ S224) 、コンテンツ管理部 220に送信して管理する。

[0099] クライアント 10では、クライアント 10から Webサーバ 20にセッション IDを通知した後、ユーザの発声した音声がデータ入力部 110に入力され (ステップ S126)、制御部 1 20に送信される。制御部 120にて、前記した具体例と同様のデータ処理が行われる。このデータ処理の際に、セッション IDを、音声データに含めるようにしてもよい。

[0100] 処理されたデータは、逐次的に、クライアント 10のデータ通信部 130より、音声処理サーバ 30に送信される（ステップ S127)。

[0101] 音声処理サーバ 30では、クライアント 10より、逐次的に送信されたデータを、データ通信部 310にて受信し (ステップ S323)、制御部 320にて、音声データであると判断し、音声処理実行部 330に送信する。

[0102] 音声処理実行部 330は、前記具体例と同様、音声処理 (音声認識、話者照合等）に必要な認識エンジン、いずれも図示されない、認識用辞書、合成エンジン、合成用辞書、話者照合エンジン等の機能の少なくとも 1つを具備しており、逐次的に、音声処理を行う（ステップ S324)。音声処理終了後、音声処理結果は、音声処理実行部 330から制御部 320を通り、データ通信部 310に送信され、データ通信部 310から W ebサーバ 20へ送信される (ステップ S325)。音声処理結果については、前記具体例と同様とされる。この時点で、セッション IDも音声処理サーバ 30から Webサーバ 20 へ送信される。セッション IDの送信も、前記具体例と同様とされる。

[0103] Webサーバ 20は、音声処理結果とセッション IDをデータ通信部 210にて受信し (ステツプ S225)、コンテンツ管理部 220に送信する。音声処理結果については、前記具体例と同様の内容とされる。この時点で、セッション IDも音声処理サーバ 30から、前記具体例と同様、 Webサーバ 20へ送信される。 Webサーバ 20は、音声処理結果とセッション IDをデータ通信部 210にて受信し、コンテンツ管理部 220に送信する。

[0104] Webサーバ 20のコンテンツ管理部 220は、セッション IDに対応した音声処理結果を反映させた情報 (音声処理結果情報と該音声処理結果に対応するコンテンツ情報、又は該音声処理結果に対応するコンテンツ情報）をセッション IDごとに作成する (ステツプ S226)。

[0105] そして、 Webサーバ 20は、サービス要求が行われたクライアントにセッション IDごとに作成された結果情報 (例えば図 15の画面 1003の音声認識結果画面）とコンテンッ（例えば図 15の画面 1004の地図画面）がダウンロードされる力あるいは、コンテンッ（例えば図 15の画面 1004の地図画面）のみがダウンロードされ (ステップ S226) 、クライアント 10は Webサーバ 20からのダウンロードされた情報を受信する。

[0106] 作成されたコンテンツ情報のダウンロードの方法として、音声処理開始時にクライァント 10にダウンロードされている画面の結果取得用ボタンのリンク先 URLを、クライアント 10が音声処理サーバ 30から通知されたセッション IDが含まれた URLとするような処理を、クライアント 10側で実行し、 Webサーバ 20で、音声処理結果を反映させたコンテンツ情報を、セッション IDが含まれた URLに配置することで、ユーザが、クライアント画面の結果取得用ボタン（例えば図 15の画面 1003の「地図を表示」ボタン）を押下した際に、音声処理結果を反映させたコンテンツ情報をクライアント 10にダウンロードするようにしてもよ、。

[0107] 本具体例においても、前記各具体例と同様に、

•音声処理サーバ 30が処理結果を利用して検索等の処理を行う場合、 •Webサーバ 20が処理結果を利用して検索等の処理を行う場合

等、様々な処理に利用可能である。 [0108] なお、図 14に一例を示したクライアント 10、 Webサーバ 20、音声処理サーバ 30の各処理は、クライアント 10、 Webサーバ 20、音声処理サーバ 30を構成する計算機（コンピュータ）上で実行されるプログラムにより、その機能を実現するようにしてもよい

[0109] [操作画面]

次に、本発明を適用した具体例としてクライアント 10での操作画面の一例について説明する。図 15は、図 12を参照してシーケンス動作を説明した本発明の第 1の具体例におけるクライアント 10の画面表示部 140に表示される画面（ページ）の推移の一例を例示した図である。以下、図 15及び図 12を参照して、本発明の第 1の具体例におけるクライアント 10の画面表示について説明する。

[0110] <画面 1001 >

画面 1001は、 Webサーバ 20からダウンロードした画面（「地図検索」のトップべ一ジ）であり、「音声入力」ボタン 1011には、 CGI (例えば、 http：〃… .jp/a.cgi)がリンクされいる。ユーザが、画面上に表示される「音声入力」ボタン 1011をクリックしてサービス要求を行う（図 12のステップ S101に対応する）。すると、 Webサーバ 20では、 " a.cgi"というプロセス（CGIプログラム）が起動され、入力された情報が引き渡される。 CGIプログラムの処理結果を基に、 Webサーバ 20で HTMLを作成し、クライアント 1 0に応答として返す。

[0111] <画面 1002>

「音声入力」画面 1002が表示され、『検索したい地図の住所を「東京都港区三田」のように発声してください。』と表示される（図 12のステップ S102— S104に対応する ) o IDは、画面中タグとして埋め込まれる。この画面 1002の状態で、ユーザは、音声入力（発話)を行う。画面上で「結果を表示」ボタン 1012には、 IDごとに生成されたぺージ (http:〃- · -/b.ID.html)力リンクされて!/、る。画面上でユーザが「結果を表示」ボタン 1012をクリックすると、次の画面 1003のように、音声処理サーバ 30で音声認識された認識結果が表示される。なお、画面 1003の認識結果画面は、 Webサーバ 20からクライアント 10にダウンロードされたものを表示したものである。

[0112] <画面 1003 > クライアント 10に「認識結果」画面 1003が表示され、『結果は、「東京都港区三田」ですね？』と表示され、画面上には「地図を表示」ボタン 1013が表示される。

[0113] <画面 1004>

ユーザが画面上で「地図を表示」ボタン 1013をクリックすることで、 Webサーバ 20 力もコンテンツ情報がダウンロードされ（図 12のステップ 106に対応する）、地図画面 (ページ） 1004が表示される。

[0114] なお、本具体例では、画面 1003の認識結果画面を表示せずに、画面 1002の結果、画面 1004を直接表示するようにしてもよい。すなわち、音声処理サーバ 30による音声認識結果の画面 1003を IDごとに作成している力画面 1002の「結果を表示」ボタン 1012のクリックにより、音声認識結果を反映した画面 1004を直接表示する構成としてもよい (この場合、図 15の画面 1003は省略される）。

[0115] なお、図 15及び以下に説明する図 16には、音声入力による地図案内システムの画面の一例が示されている力本発明は、力かるシステムに限定されるものでないことは勿論であり、任意の発話管理に適用できる。

[0116] 図 16は、図 15の変形例を示す図である。図 16に示す画面 1002aでは、図 15の画面 1002の「結果を表示」ボタン 1012が表示されない。図 16に示す例では、画面 10 02aにおける音声入力の結果、図 15の画面 1002のように、画面上で「結果を表示」ボタン 1002aをクリックすることなぐ認識結果画面 1003が表示され、ユーザが「地図を表示」ボタン 1013をクリックすると、画面 1004の地図が表示される。あるいは、画面 1003を表示せず、画面 1002aにおける音声入力の結果、直接、画面 1004の地図が表示される。

[0117] Webサーバ 20は、 IDごとに画面が準備できた際に（図 12のステップ S206)、画面の URL情報をクライアント 10に送信し、クライアント 10においては、受信した URL情報を自動的にアクセスすることで、図 15、図 16に示した画面 1003、 1004が表示される。

[0118] 次に、本発明の具体例において、ユーザがクライアント 10上で連続して発声する場合について処理の流れを説明する。連続して発声する場合の一例として、図 15あるいは図 16の画面 1004に、「音声再入力」 t 、うボタンを作成しておくようにしてもょヽ。画面 1004の「音声再入力」ボタンに、 Webサーバの CGIの URLをリンクさせておくことで、画面 1004上でユーザが「音声再入力」ボタンをクリックした時に、あらたに ID が作成され、図 15の画面 1002又は図 16の画面 1002aが表示され、再度音声入力が可能となる。

あるいは別の例としては、図 15又は図 16の画面 1004に、「TOPページ」へというボタンを作成しておく。ユーザが、画面 1004上で「ΤΟΡページ」をクリックすることで、図 15又は図 16の画面 1001のページに戻るため、再度「音声入力」のプロセスが可能となる。

[0119] なお、クライアント 10と Webサーバ 20、音声処理サーバ 30間で転送されるセキユリティ ID、固有 IDの機密保持等のセキュリティ対策として、必要に応じて、パスワード、暗号ィ匕 (公開鍵暗号ィ匕方式)等の対策を行ってもょ、ことは勿論である。

[0120] 以上、本発明を上記具体例に即して説明したが、本発明は、上記具体例の構成にのみ限定されるものでなぐ本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

産業上の利用可能性

[0121] 本発明によれば、クライアントに画面を表示させ、音声にて要求を行、、結果を画面に表示させるようなサービス提供システムに適用可能である。具体的には、

•音声で住所を発声して地図を表示させるサービス、

•音声で検索した、文章を発声してマニュアルを表示するようなサービス、

•音声で曲名を発声して曲をダウンロードするサービス

等に適用して好適とされる。

[0122] さらに、本発明は、パケット網を通してデータを送受信することが可能であるため、クライアントとしては、携帯電話端末だけでなぐ携帯情報端末 (PDA)、 PC、車載端末、ホーム端末等を用いることができる。

Claims

請求の範囲

[1] 入力された音声情報を送信するとともに、受信した情報を出力する端末と、

前記端末からの音声情報に基づき音声処理を行う音声処理装置と、

前記音声処理装置での音声処理結果を受け取り、この音声処理結果を反映させた情報を前記端末に送信する情報提供装置とを備え、

前記端末、前記音声処理装置及び前記情報提供装置は、前記音声情報に基づいて前記音声処理装置及び前記情報提供装置で行われる一連の処理に対応する処理識別情報を共用することを特徴とする音声処理システム。

[2] 前記音声処理装置は、前記音声処理として音声認識、対話及び照合処理の少なくとも 1つを行なう音声処理実行手段を備えることを特徴とする請求項 1記載の音声処理システム。

[3] 前記情報提供装置及び前記音声処理装置の一方は、前記処理識別情報を生成する識別情報生成手段を備えることを特徴とする請求項 1記載の音声処理システム。

[4] 前記情報提供装置及び前記音声処理装置の一方は、生成された前記処理識別情報を前記端末に送信する通信手段をさらに備えることを特徴とする請求項 3記載の音声処理システム。

[5] 前記端末は、前記情報提供装置及び前記音声処理装置の一方で生成された前記処理識別情報を受信し、受信した前記処理識別情報を前記情報提供装置及び前記音声処理装置の他方に送信する通信手段を備えることを特徴とする請求項 4記載の音声処理システム。

[6] 前記端末は、前記情報提供装置の識別情報生成手段で生成された前記処理識別情報を受信し、受信した前記処理識別情報を前記入力された音声情報とともに前記音声処理装置に送信する通信手段を備えることを特徴とする請求項 4記載の音声処理システム。

[7] 前記処理識別情報は、前記端末の固有識別情報であることを特徴とする請求項 1 記載の音声処理システム。

[8] 前記端末は、

前記固有識別情報を出力する固有識別情報出力手段と、この固有識別情報出力手段から出力される前記固有識別情報を前記処理識別情報として前記音声処理装置及び前記情報提供装置に送信する通信手段と

を備えることを特徴とする請求項 7記載の音声処理システム。

[9] 前記固有識別情報出力手段は、前記端末が予め保持する端末識別情報をそのまま前記固有識別情報として出力することを特徴とする請求項 8記載の音声処理システム。

[10] 前記固有識別情報出力手段は、前記端末が予め保持する端末識別情報を基に前記固有識別情報を生成し出力する手段を備えることを特徴とする請求項 8記載の音声処理システム。

[11] 前記端末は、前記処理識別情報を前記入力された音声情報とともに前記音声処理装置に送信する通信手段を備え、

前記音声処理装置は、

前記端末からの前記音声情報及び前記処理識別情報を受信する受信手段と、受信された前記音声情報の音声処理を行う音声処理実行手段と、

前記音声処理実行手段による音声処理結果に前記処理識別情報を含めて前記情報提供装置に送信する送信手段と

を備えることを特徴とする請求項 1記載の音声処理システム。

[12] 前記端末は、前記処理識別情報がヘッダ部に格納された送信パケットを前記音声処理装置に送信する通信手段を備えることを特徴とする請求項 1記載の音声処理システム。

[13] 前記情報提供装置は、

前記音声処理装置による音声処理結果を前記処理識別情報とともに受信する受信手段と、

前記処理識別情報に対応させて、前記音声処理結果を反映した結果情報を用意する情報管理手段と、

前記結果情報を前記端末に送信する送信手段とを備え、

前記端末は、前記情報提供装置からの前記結果情報を出力する出力手段を備えることを特徴とする請求項 1記載の音声処理システム。 [14] 前記情報提供装置は、

前記処理識別情報に対応させて、前記音声処理結果を反映したコンテンツ情報を用意する情報管理手段と、

前記コンテンツ情報を前記端末に送信する送信手段とを備え、

前記端末は、前記情報提供装置からの前記コンテンツ情報を出力する出力手段を備えることを特徴とする請求項 1記載の音声処理システム。

[15] 前記情報提供装置は、

前記音声処理装置による音声処理結果を前記処理識別情報とともに受信する第 1 の受信手段と、

前記音声処理結果を反映したコンテンツ情報を、前記処理識別情報を含む URL ( Uniform Resource Locator)情報によって表される場所に配置する情報管理手段と、前記端末によって指定された前記 URL情報に対応する前記コンテンツ情報を前記端末に送信する第 1の送信手段と

[16] 前記情報提供装置は、

前記音声処理結果を反映した、入力音声に対する認識結果情報を前記端末に送信する第 2の送信手段と、

前記認識結果情報を受信した前記端末によって指定された前記 URL情報に対応する前記コンテンツ情報を前記端末に送信する第 3の送信手段と

をさらに備えることを特徴とする請求項 15記載の音声処理システム。

[17] 前記音声情報は、デジタル化された音声データ、圧縮された音声データ及び特徴ベクトルのうちの少なくとも 1つであることを特徴とする請求項 1記載の音声処理システム。

[18] 前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続されるクライアント、音声処理サーバ及び情報提供サーバであり、

前記クライアントは、サービス要求時、サービス要求信号を前記情報提供サーバに送信する第 1の送信手段と、

前記サービス要求信号の応答として前記情報提供サーバから送信される前記処理識別情報を受信する受信手段と、

入力された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送信する第 2の送信手段とを備え、

前記音声処理サーバは、

前記クライアントからの前記音声情報及び前記処理識別情報を受信する受信手段と、

受信された前記音声情報の音声処理を行う音声処理実行手段と、

前記音声処理実行手段による音声処理結果及び前記処理識別情報を前記情報提供サーバに送信する送信手段とを備え、

前記情報提供サーバは、

前記クライアントからの前記サービス要求信号、及び、前記音声処理サーバからの前記音声処理結果及び前記処理識別情報を受信する受信手段と、

前記サービス要求信号が受信されたときに前記処理識別情報を生成する識別情報生成手段と、

前記識別情報生成手段で生成された前記処理識別情報に基づき前記クライアントに提示する情報を生成するとともに、前記音声処理サーバからの前記処理識別情報に対応させて前記音声処理結果を反映した情報を生成する情報管理手段と、生成された前記処理識別情報及び前記情報を前記クライアントに送信する送信手段とを備える

ことを特徴とする請求項 1記載の音声処理システム。

前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続されるクライアント、音声処理サーバ及び情報提供サーバであり、

前記クライアントは、

前記クライアントの固有識別情報を前記処理識別情報として出力する固有識別情報出力手段と、サービス要求時、サービス要求信号及び前記処理識別情報を前記情報提供サーバに送信する第 1の送信手段と、

前記音声処理サーバは、

前記情報提供サーバは、

前記クライアントからの前記サービス要求信号及び前記処理識別情報、前記音声処理サーバからの前記音声処理結果及び前記処理識別情報を受信する受信手段と

前記クライアントからの前記処理識別情報に基づき前記クライアントに提示する情報を生成するとともに、前記音声処理サーバからの前記処理識別情報に対応させて前記音声処理結果を反映した情報を生成する情報管理手段と、

前記情報管理手段で生成された前記情報を前記クライアントに送信する送信手段とを備える

ことを特徴とする請求項 1記載の音声処理システム。

[20] 前記固有識別情報出力手段は、前記クライアントが予め保持する端末識別情報をそのまま前記固有識別情報とすることを特徴とする請求項 19記載の音声処理システム。

[21] 前記固有識別情報出力手段は、前記クライアントが予め保持する端末識別情報を基に前記固有識別情報を生成する手段を備えることを特徴とする請求項 19記載の音声処理システム。

[22] 前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続されるクライアント、音声処理サーバ及び情報提供サーバであり、前記クライアントは、

サービス要求時、サービス要求信号を前記情報提供サーバに送信する第 1の送信手段と、

音声処理要求信号を前記音声処理サーバに送信する第 2の送信手段と、前記音声処理要求信号の応答として前記音声処理サーバから送信される前記処理識別情報を受信する受信手段と、

受信された前記処理識別情報を前記情報提供サーバに送信する第 3の送信手段と、

入力された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送信する第 4の送信手段とを備え、

前記音声処理サーバは、

前記クライアントからの前記音声処理要求信号を受信する第 1の受信手段と、前記音声処理要求信号が受信されたときに前記処理識別情報を生成する識別情報生成手段と、

生成された前記処理識別情報を前記クライアントに送信する第 1の送信手段と、前記クライアントからの前記音声情報及び前記処理識別情報を受信する第 2の受信手段と、

前記クライアントからの前記音声情報の音声処理を行う音声処理実行手段と、前記音声処理実行手段による音声処理結果及び前記クライアントからの前記処理識別情報を前記情報提供サーバに送信する送信手段とを備え、

前記情報提供サーバは、

前記クライアントからの前記サービス要求信号及び前記処理識別情報、及び、前記音声処理サーバからの前記音声処理結果及び前記処理識別情報を受信する受信手段と、

前記クライアントからの前記サービス要求信号に基づき前記クライアントに提示する情報を生成するとともに、前記音声処理サーバからの前記処理識別情報に対応させて前記音声処理結果を反映した情報を生成する情報管理手段と、

ことを特徴とする請求項 1記載の音声処理システム。

[23] 端末が、入力された音声情報を音声処理装置に送信するステップと、

前記音声処理装置が、前記端末からの前記音声情報の音声処理を行うステップと、音声処理結果を情報提供装置に送信するステップと、

前記情報提供装置が、前記音声処理装置での前記音声処理結果を反映した情報を用意するステップと、用意した前記情報を前記端末に送信するステップとを備え、前記端末、前記音声処理装置及び前記情報提供装置が、前記音声情報に基づいて前記音声処理装置及び前記情報提供装置で行われる一連の処理に対応する処理識別情報を共用することを特徴とする音声処理方法。

[24] 前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続されるクライアント、音声処理サーバ及び情報提供サーバであり、

前記クライアントが、サービス要求信号を前記情報提供サーバに送信するステップと、

前記情報提供サーバが、前記サービス要求信号を受信したときに前記処理識別情報を生成するステップと、前記処理識別情報に基づき前記クライアントに提示する情報を生成するステップと、生成した前記処理識別情報及び前記情報を前記クライァントに送信するステップと、

前記クライアントが、入力された前記音声情報を、前記情報提供サーバからの前記処理識別情報とともに前記音声処理サーバに送信するステップと、

前記音声処理サーバが、前記クライアントからの前記音声情報の音声処理を行うステツプと、音声処理結果及び前記クライアントからの前記処理識別情報を前記情報提供サーバに送信するステップと、

前記情報提供サーバが、前記音声処理サーバからの前記処理識別情報に対応させて、前記音声処理サーバでの前記音声処理結果を反映した情報を用意するステップと、用意した前記情報を前記端末に送信するステップと

を備えることを特徴とする請求項 23記載の音声処理方法。

[25] 前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続されるクライアント、音声処理サーバ及び情報提供サーバであり、

前記クライアントが、サービス要求信号及び前記処理識別情報を前記情報提供サーバに送信するステップと、

前記情報提供サーバが、前記サービス要求信号及び前記処理識別情報を受信したときに前記処理識別情報に基づき前記クライアントに提示する情報を生成するステップと、生成した前記情報を前記クライアントに送信するステップと、

前記クライアントが、前記情報提供サーバからの前記情報を受け取った後で、入力された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送信するステップと、

を備えることを特徴とする請求項 23記載の音声処理方法。

[26] 前記クライアントが、前記クライアントの固有識別情報を出力するステップをさらに備え、

前記クライアントが前記処理識別情報を送信するステップは、前記クライアントの固有識別情報を前記処理識別情報として送信するステップを備えることを特徴とする請求項 25記載の音声処理方法。

[27] 前記出力するステップは、前記クライアントが予め保持する端末識別情報をそのまま前記固有識別情報とするステップを備えることを特徴とする請求項 26記載の音声処理方法。

[28] 前記出力するステップは、前記クライアントが予め保持する端末識別情報を基に前記固有識別情報を生成するステップを備えることを特徴とする請求項 26記載の音声処理方法。

[29] 前記端末、前記音声処理装置及び前記情報提供装置は、それぞれ通信接続されるクライアント、音声処理サーバ及び情報提供サーバであり、前記クライアントが、サービス要求信号を前記情報提供サーバに送信するステップと、

前記情報提供サーバが、前記サービス要求信号を受信したときに前記クライアントに提示する情報を生成するステップと、生成した前記情報を前記クライアントに送信するステップと、

前記クライアントが、音声処理要求信号を前記音声処理サーバに送信するステップと、

前記音声処理サーバが、前記音声処理要求信号を受信したときに前記処理識別情報を生成するステップと、前記処理識別情報を前記クライアントに送信するステツプと、

前記クライアントが、前記音声処理サーバからの前記処理識別情報を受け取り、前記情報提供サーバに送信するステップと、入力された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送信するステップと、

を備えることを特徴とする請求項 23記載の音声処理方法。

クライアントからサービス要求信号を受信する第 1の受信手段と、

前記サービス要求信号が受信されたときに、前記クライアントからの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成手段と、

前記処理識別情報に基づき前記クライアントに提示する第 1の情報を生成する手段と、

前記処理識別情報及び前記第 1の情報を前記クライアントに送信する第 1の送信手段と、

前記クライアントからの前記音声信号及び前記処理識別情報を受け取って音声処理を行う音声処理サーバから、音声処理結果及び前記処理識別情報を受信する第

2の受信手段と、

前記音声処理サーバからの前記処理識別情報に対応させて前記音声処理結果を反映した第 2の情報を生成する手段と、

前記第 2の情報を前記クライアントに送信する第 2の送信手段と

を備えることを特徴とする情報提供サーバ装置。

[31] 当該クライアント装置からの音声情報の音声処理を行う音声処理サーバと、前記音声処理サーバでの音声処理結果を反映させた情報を当該クライアント装置に送信する情報提供サーバとによる一連の処理に対応する処理識別情報として、当該クライァント装置の固有識別情報を出力する固有識別情報出力手段と、

サービス要求時、サービス要求信号及び前記処理識別情報を前記情報提供サーバに送信する第 1の送信手段と、

入力された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送信する第 2の送信手段と

を備えることを特徴とするクライアント装置。

[32] 前記固有識別情報出力手段は、当該クライアント装置が予め保持する端末識別情報をそのまま前記固有識別情報とすることを特徴とする請求項 31記載のクライアント装置。

[33] 前記固有識別情報出力手段は、当該クライアント装置が予め保持する端末識別情報を基に前記固有識別情報を生成する手段を備えることを特徴とする請求項 31記載のクライアント装置。

[34] クライアントからの音声処理要求信号を受信する第 1の受信手段と、

前記音声処理要求信号が受信されたときに、前記クライアントからの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成手段と、

前記処理識別情報を前記クライアントに送信する第 1の送信手段と、前記クライアントからの前記音声情報及び前記処理識別情報を受信する第 2の受信手段と、

前記クライアントからの前記音声情報の音声処理を行う音声処理実行手段と、前記音声処理実行手段による音声処理結果及び前記クライアントからの前記処理識別情報を、前記処理識別情報に対応させて前記音声処理結果を反映した情報を生成し前記クライアントに送信する情報提供サーバに送信する送信手段と

を備えることを特徴とする音声処理サーバ装置。

[35] 情報提供サーバ装置を構成するコンピュータに、

クライアントからサービス要求信号を受信する第 1の受信機能と、

前記サービス要求信号が受信されたときに、前記クライアントからの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成機能と、

前記処理識別情報に基づき前記クライアントに提示する第 1の情報を生成する機能と、

前記処理識別情報及び前記第 1の情報を前記クライアントに送信する第 1の送信機能と、

前記クライアントからの前記音声信号及び前記処理識別情報を受け取って音声処理を行う音声処理サーバから、音声処理結果及び前記処理識別情報を受信する第 2の受信機能と、

前記音声処理サーバからの前記処理識別情報に対応させて前記音声処理結果を反映した第 2の情報を生成する機能と、

前記第 2の情報を前記クライアントに送信する第 2の送信機能と

を実現させるためのプログラム。

[36] クライアント装置を構成するコンピュータに、

当該クライアント装置からの音声情報の音声処理を行う音声処理サーバと、前記音声処理サーバでの音声処理結果を反映させた情報を当該クライアント装置に送信する情報提供サーバとによる一連の処理に対応する処理識別情報として、当該クライァント装置の固有識別情報を出力する固有識別情報出力機能と、サービス要求時、サービス要求信号及び前記処理識別情報を前記情報提供サーバに送信する第 1の送信機能と、

入力された前記音声情報を前記処理識別情報とともに前記音声処理サーバに送信する第 2の送信機能と

を実現させるためのプログラム。

[37] 前記固有識別情報出力機能として、当該クライアント装置が予め保持する端末識別情報をそのまま前記固有識別情報とする機能を実現させるための請求項 36記載のプログラム。

[38] 前記固有識別情報出力機能として、当該クライアント装置が予め保持する端末識別情報を基に前記固有識別情報を生成する機能を実現させるための請求項 36記載のプログラム。

[39] 音声処理サーバ装置を構成するコンピュータに、

クライアントからの音声処理要求信号を受信する第 1の受信機能と、

前記音声処理要求信号が受信されたときに、前記クライアントからの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成機能と、

前記処理識別情報を前記クライアントに送信する第 1の送信機能と、

前記クライアントからの前記音声情報及び前記処理識別情報を受信する第 2の受信機能と、

前記クライアントからの前記音声情報の音声処理を行う音声処理実行機能と、前記音声処理実行機能による音声処理結果及び前記クライアントからの前記処理識別情報を、前記処理識別情報に対応させて前記音声処理結果を反映した情報を生成し前記クライアントに送信する情報提供サーバに送信する送信機能と

を実現させるためのプログラム。

[40] クライアントと、複数のサーバとを備え、

(A)前記クライアントからの要求に基づき前記複数のサーバのうち少なくとも一のサーバで実行される処理に関連して、前記要求に応えるために他のサーバでも処理が行われ、 (B)前記他のサーバと前記一のサーバとの間で処理結果の授受が行われ、

(C)前記一のサーバで前記処理結果に基づき前記要求に対応する応答情報が作成される、

一連の処理 (A)、（B)、（C)が、前記クライアント、前記一及び他のサーバで共用される共通の処理識別情報で管理されることを特徴とする情報処理システム。

[41] 前記処理識別情報は、前記一のサーバ及び前記他のサーバのいずれかで作成されることを特徴とする請求項 40記載の情報処理システム。

[42] 前記処理識別情報は、前記クライアントの固有識別情報が用いられることを特徴とする請求項 40記載の情報処理システム。

[43] 前記一のサーバは Webサーバ、前記他のサーバは音声処理を行う音声処理サーバよりなり、

前記クライアントに入力されるユーザの発話が前記処理識別情報で管理されることを特徴とする請求項 40記載の情報処理システム。