JP4483428B2

JP4483428B2 - 音声認識／合成システム、同期制御方法、同期制御プログラム、および同期制御装置

Info

Publication number: JP4483428B2
Application number: JP2004188408A
Authority: JP
Inventors: 健太郎長友
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-06-25
Filing date: 2004-06-25
Publication date: 2010-06-16
Anticipated expiration: 2024-06-25
Also published as: JP2006011066A

Description

本発明は、入力した音声データを解析する音声認識処理または／および音声データを生成する音声合成処理を行う音声認識／合成システム等に関し、特に、音声データと音声認識／合成処理の制御指令とを同期させる音声認識／合成システム、同期制御方法、同期制御プログラム、および同期制御装置に関する。

入力した音声データを解析する音声認識技術や音声データを生成する音声合成技術を応用した音声応用システムは、音声データの入出力を行う音声データ入出力部と、音声認識処理または／および音声合成処理を行う音声認識／合成処理部と、音声データ入出力部や音声認識／合成処理部を制御する制御部とを含む構成とされている。

従来、上記のような音声応用システムは、プログラム構成要素やハードウェアブロック単位で実現されてきた。ところが、近年の通信ネットワーク技術の進展に伴い、音声応用システムを構成する各部がサーバ単位で実現される例が増えつつある。

しかし、各部がサーバ単位で実現された互いに疎な構成要素からなる音声対話システムにおいては、伝送遅延が発生し得る通信ネットワークを介して構成要素間でデータをやりとりするため、何らかの時間同期制御機構が必要となる。

仮に、時間同期制御機構を備えないこととすると、各部は適切に協調動作することができず、音声データの取りこぼし、雑音の誤検出、不適当な音響／言語モデル、パラメータの適用による認識性能の低下や出力音声品質の劣化などの様々な問題が生じるおそれがある。

例えば、送信側端末によって、同じ時間軸上に展開していた音声データと他のメディアデータ（画像等）とが分離され、別々の系を通して伝送されたあと、受信側端末によって、各々のメディアデータを受信して一つの時間軸上に再び同期編成することができるようにするのは、マルチメディアデータ通信の分野ではありふれた課題である。

特許文献１には、同一の時間軸上に展開していたマルチメディアデータがメディアごとに多重分離されて別個に伝送され、受信側装置でそれらのデータが同期出力されるようにした技術が開示されている。

また、特許文献２には、与えられたテキストから時間同期制御情報が付加された音声データと動画像データとが生成される音声応用システムが開示されている。

特開２００３−２０４４９２号公報特開２００３−２１６１７３号公報

ところが、上述した従来技術では、音声データと音声認識／合成制御指令のような本質的に異なる時間軸上に存在する情報については、同期制御を行うことができないという課題があった。

すなわち、音声データと音声認識／合成制御指令の２つの情報は、どのタイミングで同期させるべきかが自明でないため、同期制御することはできなかった。

特許文献１や特許文献２には、複数のメディアデータの同期を行う技術が開示されているが、同期制御の対象となっている各メディアデータは、元来同一の時間軸上に展開されるべきものであるので、どのようなタイミングで同期すべきかは自明である。

しかし、音声データと音声認識／合成制御指令の間には、自明な同期タイミングは存在しないため、上記の各特許文献に記載されている技術を適用しても、音声データと音声認識／合成制御指令との同期制御を行うことはできない。

この場合、適当な同期タイミングを仮定（例えば、音声認識／合成処理部が音声認識開始コマンドを受け取った時刻に直近の音声データを認識処理対象の先頭データであるとみなす等）して動作すれば、システムの環境等によっては上記のような問題が生じないこともある。

しかし、上記のような同期タイミングを仮定する手法では、伝送遅延が非常に大きい環境や、音声データに対応する制御指令が次々と発行されるようなシビアな状況においては破綻してしまうため、やはり音声データと音声認識／合成制御指令との同期制御を確実に行うことはできなかった。

本発明は、上述した問題を解消し、音声データと音声認識／合成制御指令の二つの情報を同期させて制御することができるようにすることを目的とする。

本発明の音声認識／合成システムは、入力した音声データを解析する音声認識処理または／および音声データを生成する音声合成処理を行う音声認識／合成システム（例えば音声認識／合成システム１００，３００，５００，７００，９００，１０００）であって、音声データが複数の区間に分割された各音声分割データ（例えば音声データパケット）のうち処理対象の音声分割データを特定するための識別情報（例えば識別子）として音声分割データの順序を識別する情報を設定した制御指令を発行する制御指令手段（例えば制御手段１０３，３０３，５０４，７０３，９０５、音声対話管理サーバ１００１）と、制御指令手段からの制御指令に従って、当該制御指令に識別情報として設定された順序を識別する情報によって特定される音声分割データ以降の音声データに対して音声認識処理または／および音声合成処理を行う音声処理手段（例えば音声認識手段１０２，３０２，５０２，５０３，９０２、音声生成手段７０１、９０３）と、を備えたことを特徴とする。

上記のように構成したことで、音声データの伝送系と制御指令の伝送系とが独立している場合であっても、音声認識処理または／および音声合成処理の処理対象となる音声分割データを厳密に指定することができ、音声データと制御指令とを同期させて制御することができる。

入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加する識別情報付加手段（例えば識別子付与手段１０１ｄ）を備えていてもよい。

音声データの入力処理を行う音声入力処理手段（例えば音声入力処理手段１０１ｂ）と、音声入力処理手段によって入力された音声データを複数の区間に分割した音声分割データ（例えば音声データパケット）を生成する音声データ分割手段（例えばパケット分割手段１０１ｃ）と、を備えていてもよい。

制御指令手段は、音声認識処理または／および音声合成処理の実行時刻を設定した制御指令を発行し、音声処理手段は、制御指令手段からの制御指令に従って、当該制御指令に設定されている実行時刻となったときに、当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または／および音声合成処理を行うように構成されていてもよい。

複数の音声処理手段（例えば音声認識手段３０２ａ，３０２ｂ）を備えるとともに、複数の音声処理手段それぞれの音声認識処理または／および音声合成処理の処理結果を統合する処理結果統合手段（例えば結果統合手段３０３ｃ）を備えていてもよい。

制御指令手段は、複数の音声処理手段（例えば第１の音声認識手段５０２と第２の音声認識手段５０３）のうちの一の音声処理手段（例えば第１の音声認識手段）に対して制御指令（例えば図６に示す制御指令「ＣＣ１」）を発行し、一の音声処理手段は、制御指令手段からの制御指令の一部または全部（例えば図６に示す制御指令「ＣＣ２」）を他の音声処理手段に転送する制御指令転送手段（例えば音声認識制御手段５０２ａ）を有する構成とされていてもよい。

一の音声処理手段は、制御指令手段からの制御指令によって指示された処理対象の音声データの一区間または全区間（例えば図６に示す識別子「ＣＩ１０」が付加された音声データパケット）を他の音声処理手段に転送する音声データ転送手段（例えばパケット送受信手段５０２ｅ）を有する構成とされていてもよい。

識別情報付加手段は、識別情報として、例えば、タイムスタンプ、シリアル番号、音声認識処理または／および音声合成処理による音声対話の処理シーケンス番号、またはこれらの組み合わせを、各音声分割データそれぞれに付加する。

識別情報の時間順序性を管理する機能を提供する識別情報管理手段（例えば制御手段１０３）を備えていてもよい。識別情報管理手段は、システムを構成する各構成要素でそれぞれ用いられる絶対時刻を同期させ（例えばＮＴＰサーバからの時刻情報を利用して同期させる）、かつ、識別情報に特定の絶対時刻（例えば識別情報が付与されたときの時刻）を対応させることで、各識別情報の時間順序性（例えば付与された順番）を管理する機能を有する。

また、本発明の同期制御方法は、入力した音声データを解析する音声認識処理または／および音声データを生成する音声合成処理を行う音声認識／合成システム（例えば音声認識／合成システム１００，３００，５００，７００，９００，１０００）であって、音声データが複数の区間に分割された各音声分割データ（例えば音声データパケット）における同期制御方法であって、音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報（例えば識別子）として音声分割データの順序を識別する情報を設定した制御指令（例えば図２における指令「ＡＣ１」）を発行し、制御指令に従って、当該制御指令に識別情報として設定された順序を識別する情報によって特定される音声分割データ（例えば識別子「ＡＩ０」が付加された音声データパケット）以降の音声データに対して音声認識処理または／および音声合成処理を行うことを特徴とする。

入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加するように構成されていてもよい。

音声データの入力処理を行い、入力処理によって入力された音声データを複数の区間に分割した音声分割データを生成するように構成されていてもよい。

音声認識処理または／および音声合成処理の実行時刻を設定した制御指令を発行し、制御指令に従って、当該制御指令に設定されている実行時刻となったときに、当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または／および音声合成処理を行うように構成されていてもよい。

制御指令に従って異なる処理手段で行われた複数の音声認識処理または／および音声合成処理の処理結果を統合するように構成されていてもよい。

制御指令に従って音声認識処理または／および音声合成処理を行ったあと、制御指令の一部または全部を他の処理手段に転送し、転送された制御指令に従って他の処理手段にて音声認識処理または／および音声合成処理を行うように構成されていてもよい。

制御指令手段からの制御指令によって指示された処理対象の音声データの一区間または全区間を他の処理手段に転送するように構成されていてもよい。

各音声分割データそれぞれに付加する識別情報として、例えば、タイムスタンプ、シリアル番号、音声認識処理または／および音声合成処理による音声対話の処理シーケンス番号、またはこれらの組み合わせのいずれかを用いる。

また、本発明の同期制御プログラムは、入力した音声データを解析する音声認識処理または／および音声データを生成する音声合成処理を行う音声認識／合成システム（例えば音声認識／合成システム１００，３００，５００，７００，９００，１０００）に同期制御を実行させる同期制御プログラムであって、音声認識／合成システムを構成するコンピュータ（例えば、音声入力手段９０１、音声認識手段９０２、音声生成手段９０３、音声出力手段９０４、制御手段９０５）に、音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報（例えば識別子）として音声分割データの順序を識別する情報を設定した制御指令を発行するステップと、制御指令に従って、当該制御指令に識別情報として設定された順序を識別する情報によって特定される音声分割データ以降の音声データに対して音声認識処理または／および音声合成処理を行うステップとを実行させるためのものである。

上記のように構成したことで、音声認識／合成システムにおける音声データの伝送系と制御指令の伝送系とが独立している場合であっても、音声認識／合成システムを構成するコンピュータに、音声認識処理または／および音声合成処理の処理対象となる音声分割データを厳密に指定させることができ、音声データと制御指令とを同期させて制御させることができるようになる。

コンピュータに、さらに、入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加するステップを実行させるように構成されていてもよい。

コンピュータに、さらに、音声データの入力処理を行うステップと、入力処理によって入力された音声データを複数の区間に分割した音声分割データを生成するステップとを実行させるように構成されていてもよい。

さらに、本発明の同期制御装置は、音声データの入力処理を行う音声入力処理手段（例えば音声入力処理手段１０１ｂ）と、音声入力処理手段によって入力された音声データを複数の区間に分割した音声分割データを生成する音声データ分割手段（例えばパケット分割手段１０１ｃ）と、音声データ分割手段によって分割された各音声分割データに、システム内で一意に識別される識別情報（例えば識別子）として音声分割データの順序を識別する情報をそれぞれ付加する識別情報付加手段（例えば識別子付与手段１０１ｄ）と、音声入力処理手段によって入力された音声データのうち、順序を識別する情報によって特定される音声分割データ以降の音声データを解析する音声認識処理または／および音声データを生成する音声合成処理を行う音声処理手段（例えば音声認識手段１０２）に対して、処理対象の音声分割データを特定するための識別情報として順序を識別する情報を設定した制御指令を発行する制御指令手段（例えば制御手段１０３）と、を備えたことを特徴とする。

上記のように構成したことで、音声データの伝送系と制御指令の伝送系とが独立している場合であっても、音声認識処理または／および音声合成処理の処理対象となる音声分割データを厳密に指定することができ、音声処理手段に、音声データと制御指令とを同期させて制御させることができる。

本発明によれば、音声データの伝送系と制御指令の伝送系とが独立している場合であっても、音声認識処理または／および音声合成処理の処理対象となる音声分割データを厳密に指定することができ、音声データと制御指令とを同期させて制御することができる。

以下、本発明の実施の形態について図面を参照して説明する。
実施の形態１．
図１は、本発明の第１の実施の形態における音声認識／合成システム１００の構成例を示すブロック図である。

図１に示すように、本例の音声認識／合成システム１００は、音声入力手段１０１と、音声認識手段１０２と、制御手段１０３とを含む。音声入力手段１０１と、音声認識手段１０２と、制御手段１０３とは、伝送手段１０４によって接続されている。

音声入力手段１０１は、音声入力制御手段１０１ａと、音声入力処理手段１０１ｂと、パケット分割手段１０１ｃと、識別子付与手段１０１ｄと、パケット保持手段１０１ｅと、パケット送信手段１０１ｆとを含む。

音声入力手段１０１は、制御手段１０３からの制御指令にもとづいて音声データを入力する処理や、入力した音声データをパケットに分割して音声認識手段１０２に送信する処理などの各種の処理を実行する。

音声入力制御手段１０１ａは、制御手段１０３などの他の構成要素からの制御指令を受信し、受信した制御指令にもとづいて音声入力手段１０１全体の動作を制御する。また、音声入力制御手段１０１ａは、他の構成要素からの要求に応じて、音声入力処理の状況等を示す情報を、他の構成要素に送信する。

音声入力処理手段１０１ｂは、外部からの音声データを受信し、受信した音声データに対して必要に応じて各種の処理を施す。例えば、音声入力処理手段１０１ｂは、入力した音声データがアナログ音声であればＡ／Ｄ変換を行い、入力した音声データが何らかのエンコードを施されたデータであればデコード処理を行う。なお、音声入力処理手段１０１ｂは、雑音抑制処理等を行う機能を有していてもよい。

パケット分割手段１０１ｃは、音声データを適切な区間に区切り、各区間毎に音声データの再現に必要な付帯情報を付加することで、音声データをパケットと呼ばれる単位に分割する。付帯情報としては、シリアル番号、タイムスタンプ、パケットサイズ、量子化パラメータ等が用いられる。

識別子付与手段１０１ｄは、パケット分割手段１０１ｃによって生成された各パケットを一意に識別するための識別子を付与する処理を実行する。

パケット保持手段１０１ｅは、必要に応じてパケットをバッファリングする処理を実行する。

なお、実際には、パケット保持手段１０１ｅが一度に保持できるパケットの個数は有限であるため、パケットが失われることがある。パケットが失われると、その失われたパケットに対する処理要求を行うことができなくなるという問題が生じる。

しかしながら、多くの場合、保持しておく必要のあるパケットは対話の流れによってある程度限定されるので、適当なバッファ管理アルゴリズムを用いておけば、実用上問題になることは少ない。

もし、問題になってしまうようであれば、制御手段１０３が対話フローから必要とされるパケットを保持し続けるよう制御指令を発行するようにすればよい。あるいは、必要なパケットを保持する他の構成要素から取得し直すようにしてもよい。

パケット送信手段１０１ｆは、パケット保持手段１０１ｅに保持されているパケットを、音声認識手段１０２などの他の構成要素へ送信する処理を実行する。

音声認識手段１０２は、音声認識制御手段１０２ａと、音声認識処理手段１０２ｂと、識別子判定手段１０２ｃと、パケット保持手段１０２ｄと、パケット受信手段１０２ｅとを含む。

音声認識手段１０２は、制御手段１０３からの制御指令を受けて音声を認識し、制御手段１０３からの要求に応じて認識結果を出力する。

音声認識制御手段１０２ａは、制御手段１０３などの他の構成要素からの制御指令を受信し、受信した制御指令にもとづいて音声認識手段１０２全体の動作を制御する。また、音声認識制御手段１０２ａは、他の構成要素からの要求に応じて保持している認識結果等の情報を送信する。

音声認識処理手段１０２ｂは、識別子判定手段１０２ｃによって選別された音声データに対して音声認識処理を行い、その結果を保持する。

識別子判定手段１０２ｃは、制御指令によって指定された特定のパケットを、パケットに付与されている識別子にもとづいて選択し、音声認識処理手段１０２ｂに送信する。

パケット保持手段１０２ｄは、必要に応じてパケットをバッファリングする処理を実行する。

パケット受信手段１０２ｅは、音声入力手段１０１などの他の構成要素から音声データのパケットを受信し、パケット保持手段１０２ｄへ格納する。

制御手段１０３は、ユーザインタフェース手段１０３ａと、対話管理手段１０３ｂとを含む。

制御手段１０３は、音声入力手段１０１や音声認識手段１０２を制御して、システム１００全体が一つの音声対話システムとして動作するよう協調させる。

ユーザインタフェース手段１０３ａは、音声以外のユーザインタフェース装置、例えばディスプレイやボタン、マウス、キーボード等であり、音声対話を補助するためにユーザとのインタラクションを行う。

対話管理部１０３ｂは、ユーザインタフェース手段１０３ａや音声認識手段１０２から得られた情報にもとづいて、対話の進行を管理し、同時に必要に応じて他の構成要素に制御指令を送信する。

また、対話管理部１０３ｂは、他の構成要素からの制御指令を受信し、解釈し、必要に応じて何らかの情報を送信することで、全体を制御する。

伝送手段１０４は、図１に示す各構成要素の間で制御指令や音声データパケットを相互に送受信するための通信ネットワークである。図１では、制御指令を伝送する系と音声データパケットを伝送する系とがそれぞれ独立した系となっているが、同じ系を共有するようにしてもよい。

識別子としては、シリアル番号、シーケンス番号、タイムスタンプなどが用いられる。以下、それぞれの識別子について説明する。

シリアル番号は、パケットの順序関係を示すために広く用いられている付帯情報である。シリアル番号は、一般的に有限の整数で表現されるため、ある限定された時間内でのみ一意性を持つ。

シリアル番号を用いる場合、シリアル番号の桁あふれを検出する仕組みが別途必要になるが、実用上は、先行する番号との大小関係を検査するだけでよく、簡単である。

シリアル番号は、ある構成要素の組と別の組とでは値に一意性がない。図１に示す音声認識／合成システム１００では、音声入力手段１０１と音声認識手段１０２との組が一組しか存在しないので問題にならないが、後述する第２の実施の形態における音声認識／合成システム３００（図３参照）のように、音声入力手段と音声認識手段との組が複数存在し、それぞれ非同期に動作している場合には、各々の組の間でシリアル番号の一意性はないことになる。

シーケンス番号は、ある処理シーケンスに属する音声データを識別するための番号であり、例えば１回目の発話に対しては１番、２回目の発話に対しては２番といった要領で割り当てる。このように、シーケンス番号はそれを割り当てる側（この場合、音声入力手段１０１）が音声データを何らかの単位に区切る必要がある。しかし、実装が比較的容易なため、限定された用途では利用を検討する価値がある。

タイムスタンプは、ある音声データを処理した時刻をそのまま識別子として用いる方法である。タイムスタンプは、ほぼ無限の時間内で一意性があり、また、時系列データである音声データとの相性もよい。しかし、システム１００を構成する各構成要素の間で絶対時刻を揃えておく必要がある。各構成要素が単一の計算機の上で動作するのであれば、そのような必要はない。ところが、本例のように、各構成要素が別々の計算機上で動作する場合には、例えば、時刻同期を行うためのＮＴＰ（Network Time Protocol）のような仕組みを併用することで、各構成要素の間で絶対時刻を揃えておく必要がある。

本例で用いる識別子は、システム１００全体で各音声データを一意に識別できるものが望ましい。少なくとも、音声データを直接やり取りする構成要素の組において、ある限定された時間内でならば十分に一意性を保証できる識別子である必要がある。

上記の識別子の例のうちで、本例で用いる識別子に最も好適なのは、タイムスタンプである。時系列データである音声データとの相性がよく、また、音声対話システム開発者が直感的に把握しやすいためである。また、タイムスタンプは、時刻を意味するデータであるため、スケジューリング機能と容易に組み合わせることができる。よって、本例では、識別子としてタイムスタンプを用いるものとする。

なお、本例のシステム１００は、識別情報の時間順序性を管理するための機能を備えている。この機能は、例えば制御手段１０３に備えられる。この機能により、制御手段１０３は、各識別情報と、各識別情報が付与された時刻とを対応付けして記憶しておく。この時刻は、例えば絶対時刻を管理するＮＴＰサーバから提供されるシステム内で共通に用いられる時刻が用いられる。各識別情報と、各識別情報が付与された時刻に関する情報は、例えば識別情報を付与する機能を有する端末装置（例えば音声入力手段１０１）から取得するようにすればよい。このように構成することで、システム１００に各識別情報の時間順序性を管理する機能を持たせることができる。

次に、本例の音声認識／合成システム１００の動作について説明する。
図２は、本例の音声認識／合成システム１００による音声認識処理の例を示すタイムチャートである。

図２に示すタイムチャートにおいて、縦軸は、時刻Ａ０から時刻Ａ１４までの時間の経過を表しており、下方に進むほど未来の事象を表す。また、図２において、実線の矢印は、制御指令の流れを表す。また、破線の矢印は、音声データの流れを表す。

音声認識処理において、先ず、音声入力手段１０１は、音声データの入力を時刻Ａ０から開始し、入力した音声データを順次パケットに分割して識別子を付与しながら、音声認識手段１０２に送信していく。

なお、入力した音声データから最初に生成されたパケットに付加される識別子は、「ＡＩ０」であるものとする。

音声認識手段１０２は、音声入力手段１０１からのパケットの受信を、時刻Ａ１に開始する。ただし、時刻Ａ１には、まだ音声認識処理が開始されていない。このため、音声認識手段１０２は、受信した各パケットをパケット保持手段１０２ｄに格納する。

次いで、制御手段１０３は、時刻Ａ２に、音声認識処理の開始を指示する制御指令「ＡＣ１」を音声認識手段１０２に送信する。

制御指令「ＡＣ１」を送信する際には、制御手段１０３は、音声認識処理の対象データを特定するための任意の識別子を指定し、制御指令「ＡＣ１」に含めることができるものとする。ここでは、音声入力手段１０１によって音声データの入力処理が開始された時刻が時刻Ａ０であることから、識別子「ＡＩ０」を制御指令「ＡＣ１」に含めるものとする。

音声認識手段１０２は、識別子「ＡＩ０」を含む制御指令「ＡＣ１」を時刻Ａ４に受信すると、指定された識別子「ＡＩ０」が付加されている音声データをパケット保持手段１０２ｄから読み出し、読み出したパケットから音声認識処理を開始する。

その後、音声認識処理が時刻Ａ６に完了すると、音声認識手段１０２は、その旨を示す音声認識処理完了通知「ＡＣ１’」を、制御手段１０３に送信する。

音声認識処理完了通知「ＡＣ１’」を受信すると、制御手段１０３は、音声入力を一時的に停止することとし、時刻Ａ７に、音声入力手段１０１に向けて音声入力処理停止指令「ＡＣ２」を送信する。

音声入力処理停止指令「ＡＣ２」を時刻Ａ８に受信すると、音声入力手段１０１は、その時点で音声認識手段１０２への音声データパケットの送信を停止する。

なお、音声認識手段１０２が音声認識処理を完了した時刻Ａ６から、音声入力手段１０１が音声データパケットの送信を停止した時刻Ａ８までの間は、音声入力手段１０１から音声認識手段１０２に音声データパケットが送信され続けている。すなわち、音声認識手段１０２が音声認識処理を完了した時刻Ａ６のあとも、時刻Ａ８までは音声データパケットが音声認識手段１０２に送信される。このため、音声認識手段１０２が備えるパケット保持手段１０２ｄには、時刻Ａ６以降に受信され、時刻Ａ８までに音声入力手段１０１から送信された音声データパケットが保持されている。

その後、制御手段１０３は、音声入力手段１０１に音声入力を再開するように、指令「ＡＣ３」を送信する。指令「ＡＣ３」を時刻Ａ９に受信すると、音声入力手段１０１は、音声認識手段１０２へのパケットの送信処理を再開する。

なお、この例では、時刻Ａ９にて送信処理の再開後に最初に送信されるパケットに付加される識別子は、識別子「ＡＩ９」であるものとする。

制御手段１０３は、音声入力手段１０１が音声データパケットの送信処理を再開した時刻が時刻Ａであることっから、識別子「ＡＩ９」が付加されたパケットを処理対象の音声データとして音声認識を開始するように、識別子「ＡＩ９」を含む音声認識開始指令「ＡＣ４」を音声認識手段１０２に向けて送信する。

また、この例では、制御手段１０３は、指令「ＡＣ４」を送信した直後である時刻Ａ１０に、音声認識開始指令「ＡＣ５」を別途送信したものとする。

そして、この例では、音声認識開始指令「ＡＣ４」と音声認識開始指令「ＡＣ５」とが順次送信されたにもかかわらず、例えば伝送路の状態の影響で、指令「ＡＣ４」よりも先に、指令「ＡＣ５」が音声認識手段１０２に受信されたものとする。

このような場合でも、それぞれの指令には処理対象となる音声データを特定するための識別子が含まれているので、音声認識手段１０２は、どの音声データから音声認識処理を開始すればよいのか正確に判断することができる。よって、処理すべき適切な音声データに対して音声認識処理が行われる。

以上に説明したように、上述した第１の実施の形態では、音声データパケットに識別子を付与するとともに、処理対象とする音声データを特定するための識別子を指定した制御指令を発行する構成としているので、処理対象とする音声データを正確に特定することができる。

このような手法を用いない場合、認識処理の対象とすべき一部の音声データが捨てられたり、あるいは逆に、認識処理の対象とすべきでない音声データも含めて音声認識処理に掛けてしまうおそれがある。

図２に示した指令「ＡＣ１」のケースでは、時刻Ａ４から始まる音声認識処理の対象として識別子「ＡＩ０」を持つパケット（以降の音声データ）を指示しているが、パケット保持手段１０２ｄによって保持されている範囲であれば任意の過去に到着したパケットを指定することができる。

また、時刻Ａ４以降に到着するパケットを指定してもよく、その場合は、そのパケットが到着するまで音声認識処理の開始は延期される。

図２に示した例では、時刻Ａ８からＡ９にかけて音声データの入力が中断しているが、音声認識手段１０２の内部にあるパケット保持手段１０２ｄには古いパケットがまだ残っている。このため、音声データの入力処理の再開後は、パケット保持手段１０２ｄの格納情報の見た目上は、中断直前である時刻Ａ８に送信されたパケットと再開直後に送信された時刻Ａ９のパケットとが連続して保持されているように見える。

仮に、再開後の音声認識処理でパケット保持手段１０２ｄに保持されているパケットを順番に処理していくこととすると、時刻Ａ８と時刻Ａ９の音声データの非連続性の影響で、認識精度は劣化してしまうことになる。しかし、図２のケースにおいては、再開時に発行された認識開始指令「ＡＣ４」にて識別子「ＡＩ９」を指定するようにしているので、ているので、音声データの非連続性の影響を受けることはなく、認識精度の劣化を防止することができる。

また、上述した第１の実施の形態では、さらに、音声データパケットに識別子を付与するとともに、ある処理が扱うべき音声データの識別子を指定して制御指令を発行する構成としているので、複数の制御指令の送信時刻と受信時刻が錯綜したとしても、それぞれの制御指令にもとづく処理を適切な音声データに対して行うことができる。

図２における制御指令「ＡＣ４」と制御指令「ＡＣ５」は、複数の制御指令の送信時刻と受信時刻が錯綜した場合の例である。

認識処理指令「ＡＣ４」では処理対象の音声データを特定するために識別子「ＡＩ９」が指定され、認識処理指令「ＡＣ５」では処理対象の音声データを特定するために識別子「ＡＩ１０」が指定されていたとする。

この場合、指令「ＡＣ４」と指令「ＡＣ５」が到着した順序に関わらず、音声認識処理手段１０２は、各指令で指定されている処理対象の音声データについて適切に音声認識処理を行う。

これに対し、従来は、指令「ＡＣ４」と指令「ＡＣ５」とで異なるパラメータが用いられていたので、両者の到達順序が意図した順序と入れ替わってしまうと、それぞれの指令による音声データとパラメータの関係が不適切になり、認識精度の劣化を招くおそれがあった。

また、上述した第１の実施の形態では、音声データパケットへの識別子の付与を音声入力手段１０１の中で閉じて行う構成としているので、他の構成要素の種類や状態によらずに、音声データを適切に処理することができる。すなわち、音声入力手段１０１と他の構成要素とは互いに高いレベルで独立性を保ちながら、かつ制御指令と音声データの密な連携を達成することができる。

実施の形態２．
次に、本発明の第２の実施の形態について図面を参照して説明する。
図３は、本発明の第２の実施の形態における音声認識／合成システム３００の構成例を示すブロック図である。

図３に示すように、本例の音声認識／合成システム３００は、音声入力手段３０１と、音声認識手段３０２ａ〜３０２ｎの集合３０２と、制御手段３０３とを含む。音声入力手段３０１と、複数の音声認識手段３０２ａ〜３０２ｎと、制御手段３０３とは、それぞれ伝送手段３０４によって接続されている。

音声入力手段３０１は、上述した音声入力手段１０１と同様の構成とされる。音声認識手段の集合３０２は、２つ以上の音声認識手段によって構成される。個々の音声認識手段３０２ａ〜３０２ｎは、それぞれ、上述した音声認識手段１０２と同様の構成とされる。伝送手段３０４は、上述した伝送手段１０４と同様の構成とされる。

制御手段３０３は、ユーザインタフェース手段３０３ａと、対話管理手段３０３ｂと、結果統合手段３０３ｃとを含む。ユーザインタフェース手段３０３ａおよび対話管理手段３０３ｂは、それぞれ、上述した制御手段１０３におけるユーザインタフェース手段１０３ａおよび対話管理手段１０３ｂと同様の構成とされる。

結果統合手段３０３ｃは、複数の音声認識手段３０２ａ〜３０２ｎからそれぞれ受信した認識結果を何らかの方法で評価し、その結果を統合させて、単一の音声認識手段から取得した音声認識結果と同様に取り扱うことができるようにする。具体的には、例えば、処理対象の音声データにおける各区間の音声認識結果について、それぞれ、信頼度が高い音声認識手段の認識結果を採用し（例えば住所の音声認識については音声認識手段３０２ａが信頼度が最も高く、名前の音声認識については音声認識手段３０２ｂが信頼度が最も高いなどの情報をあらかじめ把握しておく）、採用した認識結果を繋ぎ合わせるようにすればよい。

本例の音声認識／合成システム３００は、複数の音声認識手段３０２ａ〜３０２ｎに、単一の音声入力手段３０１から入力された同一の音声データについて、それぞれ異なる条件の下で、音声認識処理を実行させる。

そして、制御手段３０３に、音声認識手段３０２ａ〜３０２ｎがそれぞれ導き出す少しずつ異なる結果を、結果統合手段３０３ｃによって統合する処理を実行させる。

次に、本例の音声認識／合成システム３００の動作について説明する。
図４は、本例の音声認識／合成システム３００による音声認識処理の例を示すタイムチャートである。

図４に示す音声認識処理では、各構成要素の間の音声データと制御指令のやり取りが示されている。

音声入力手段３０１は、時刻Ｂ０に入力された音声データに識別子「ＢＩ０」を付加し、各音声認識手段３０２ａ〜３０２ｃにそれぞれ送信する。

ここでは、音声入力手段３０１によって送信された音声データが各音声認識手段３０２ａ〜３０２ｃに到着する時刻が、それぞれ異なるものとする。図４に示すように、この例では、時刻Ｂ１に音声認識手段３０２ｃに到着し、時刻Ｂ２に音声認識手段３０２ｂに到着し、時刻Ｂ３に音声認識手段３０２ａに到着したものとする。

また、図４に示すように、制御手段３０３が時刻Ｂ４に発行した音声認識開始指令「ＢＣ１」が各音声認識手段３０２ａ〜３０２ｃに到着する時刻も、それぞれ異なるものとする。

このとき、制御手段３０３は、処理対象データを特定するための識別子として指令「ＢＣ１」に識別子「ＢＩ０」を指定している。このため、各音声認識手段３０２ａ〜３０２ｃにて同一の音声データを処理対象とする音声認識処理が適切に実行される。

もちろん、制御手段３０３が、時刻Ｂ４とは異なる時刻Ｂ５に音声認識開始指令「ＢＣ２」を発行したとしても、指令「ＢＣ２」にて識別子「ＢＩ０」が指定されていれば、指令「ＢＣ１」を発行した場合と全く同一の音声データを音声認識処理の対象とさせることができる。

一方、ある音声データにおける異なる区間のデータを、各音声認識手段３０２ａ〜３０２ｃに別個に処理させるようにしてもよい。

具体的には、例えば、図４に示すように、時刻Ｂ６、時刻Ｂ７、時刻Ｂ８に入力された各音声データに付加された識別子が、それぞれ識別子「ＢＩ６」、識別子「ＢＩ７」、識別子「ＢＩ８」であるとする。そして、制御手段３０３が、音声認識処理開始指令「ＢＣ３」に識別子「ＢＩ６」を設定し、指令「ＢＣ４」に識別子「ＢＩ７」を設定し、「ＢＣ５」に識別子「ＢＩ８」を設定する。このように構成すれば、各音声認識手段３０２ａ〜３０２ｃに、それぞれ異なる音声区間の音声データを処理対象として音声認識処理を実行させることができる。

結果統合手段３０３ｃにおける認識結果統合処理には、さまざまな手法が考えられる。例えば、各音声認識手段３０２ａ〜３０２ｃでの認識結果の尤度にもとづいて並べ替え、信頼度を用いて再評価する等の手法を取ることができる。また、その他には、例えば、認識結果を純粋に文字列として扱う方法や、入力音声とのアライメントを取って評価する方法などが考えられる。

以上に説明したように、上述した第２の実施の形態では、音声認識処理の対象となる音声データを識別子によって厳密に指定する構成としているので、複数の音声認識処理手段３０２ａ〜３０２ｃによって並列的に音声認識処理を行う際に、各々の音声認識処理手段３０２ａ〜３０２ｃが確実に指定通りに同じ音声データを扱うよう保証することができる。

また、上述した第２の実施の形態では、音声認識処理の対象となる音声データを識別子によって厳密に指定する構成としているので、各音声認識手段３０２ａ〜３０２ｃにある音声データの異なる区間をそれぞれ音声認識処理させる際に、それぞれが処理した区間における音声データの時刻関係を正確に知ることができる。従って、複数の認識結果の時刻関係を完全に把握した上で、それら複数の認識結果を統合することができる。

さらに、上述した第２の実施の形態では、音声認識処理の対象となる音声データを識別子によって厳密に指定する構成としているので、ある音声認識手段の認識結果や認識処理中の途中経過に応じて、処理対象の音声に適した別の音声認識手段を起動したり、認識処理の精度を向上させるためのパラメータ（処理対象の音声に適したパラメータ。具体的には、例えば氏名用のパラメータ、住所用のパラメータなどがある）を動的に変化させることができ、その際に扱われた音声データの識別子を調べることによって、結果統合手段３０３ｃがそれらをより正確に統合することができる。

実施の形態３．
次に、本発明の第３の実施の形態について図面を参照して説明する。
図５は、本発明の第３の実施の形態における音声認識／合成システム５００の構成例を示すブロック図である。

図５に示すように、音声認識／合成システム５００は、音声入力手段５０１と、第１の音声認識手段５０２と、第２の音声認識手段５０３と、制御手段５０４とを含む。音声入力手段５０１と、音声認識手段の集合５０２と、第１の音声認識手段５０２と、第２の音声認識手段５０３と、制御手段５０４とは、伝送手段５０５によって接続されている。

第１の音声認識手段５０２は、音声認識制御手段５０２ａと、音声認識処理手段５０２ｂと、結果統合手段５０２ｆと、識別子判別手段５０２ｃと、パケット保持手段５０２ｄと、パケット送受信手段５０２ｅとを含む。

音声認識制御手段５０２ａと、音声認識処理手段５０２ｂと、識別子判別手段５０２ｃと、パケット保持手段５０２ｄとは、それぞれ、音声認識制御手段１０２ａと、音声認識処理手段１０２ｂと、識別子判別手段１０２ｃと、パケット保持手段１０２ｄと同様に構成される。

パケット送受信手段１０２ｅは、音声入力手段５０１からの音声データパケットを受信する処理や、第２の音声認識手段５０３に対して音声データパケットを送信する処理などを実行する。

結果統合手段５０２ｆは、第１の音声認識手段５０２の認識結果と、第２の音声認識手段５０２の認識結果とを統合する処理などを実行する。

第１の音声認識手段５０２は、音声入力手段５０１からの音声データを受信し、制御手段５０４の制御に応じて受信した音声データを認識するための音声認識処理を実行し、認識結果を送信する。

この例では、第１の音声認識手段５０２は、音声認識処理の任意のタイミングで第２の音声認識手段５０３を呼び出し、音声認識手段５０３による音声認識処理の処理結果を受け取って、結果統合手段５０２ｆによって自らの認識結果と統合した後、それを最終的な結果として用いる。

第２の音声認識手段５０３が用いる音声データは、第１の音声認識手段５０２の内部にあるパケット保持手段５０２ｄから読み出した音声データをパケット送受信手段５０２ｅによって転送することにより第２の音声認識手段５０３に入力される。なお、音声入力手段５０１から第２の音声認識手段５０３に、音声データを直接送信するようにしてもよい。

音声入力手段５０１、制御手段５０４、伝送手段５０５は、それぞれ、上述した音声入力手段１０１、制御手段１０３、伝送手段１０４と同様に構成される。また、第１の音声認識手段５０２は、上述した音声認識手段１０２に結果統合手段５０２ｆを付加し、さらにパケット送信手段１０２ｅをパケット送受信手段に５０２ｅに変更した構成とされている。さらに、第２の音声認識手段５０２は、上述した音声認識手段１０２と同様の構成とされる。

なお、第１の音声認識手段５０２と第２の音声認識手段５０３との間に、第３、第４、・・・の音声認識手段を挟みこむこともできる。さらに、各音声認識手段５０２，５０３
の代わりに、上述した第２の実施の形態における複数の音声認識手段３０２ａ〜３０２ｎの集合３０２を用いることもできる。

次に、本例の音声認識／合成システム５００の動作について説明する。
図６は、本例の音声認識／合成システム５００による音声認識処理の例を示すタイムチャートである。

この例では、第１の音声認識手段５０２にてある認識処理を行う過程で、その処理対象の音声データの一部または全体に対して、異なる条件の下で音声認識処理を実行させる。この場合、第１の音声認識手段５０２は、異なる条件の下での音声認識処理の対象とする音声データを第２の音声認識手段５０３に転送するようにすればよい。

図６には、第１の音声認識手段５０２が第２の音声認識手段５０３に同じ音声データを処理させたときの例が示されている。この図６には、第２の音声認識手段５０３に対して音声データを与える２つの例が示されている。

第１の例（時刻Ｃ０〜時刻Ｃ８に示す例）では、第２の音声認識手段５０３は、音声入力手段５０１から音声データを直接受け取る。すなわち、音声入力手段５０１は、第１の音声認識手段５０２および第２の音声認識手段５０３に対し、入力した音声データに識別子付加して順次送信する。

制御手段５０４は、時刻Ｃ０に、第１の音声認識手段５０２に対して識別子「ＣＩ１」の音声データを音声認識するように、識別子「ＣＩ１」を含む指令「ＣＣ１」を出す。

指令「ＣＣ１」を受信した時刻Ｃ２に、第１の音声認識手段５０２は、音声認識処理を開始するとともに、第２の音声認識手段５０３に対しても同じ識別子「ＣＩ１」の音声データに対する認識処理を開始するように、識別子「ＣＩ１」を含む指令「ＣＣ２」を発行する。

第２の音声認識手段５０３は、識別子「ＣＩ１」の音声データを音声入力手段５０１から直接受け取り、音声認識処理を行う。そして、第２の音声認識手段５０３は、認識処理が完了すると、その旨を示す認識処理完了通知「ＣＣ２’」を第１の音声認識手段５０２に送信する。

第１の音声認識手段５０２は、認識処理完了通知「ＣＣ２’」を受けると、結果統合手段５０２ｆで自らの認識結果と第２の音声認識手段５０３の認識結果とを統合し、最終的な認識処理の完了を示す認識処理完了通知「ＣＣ１’」を制御手段５０４に送信する。

上記のように、第１の例では、第１の音声認識手段５０２が、制御手段５０４からの指令「ＣＣ１」を受けたことに応じて、音声認識処理を開始するとともに、第２の音声認識手段５０３に対して指令「ＣＣ２」を発行する。この指令「ＣＣ１」と指令「ＣＣ３」は、識別子「ＣＩ１」を含んでいれば同一内容の指令であってもよく、一部が異なる内容（例えば処理時刻や処理結果の返答先に関する情報）となっていてもよい。この場合、第１の音声認識手段５０２が、指令「ＣＣ１」の内容を変更することで指令「ＣＣ２」を作成するようにしてもよい。なお、認識処理完了通知「ＣＣ２’」および「ＣＣ１’」についても同様である。

第２の例（時刻Ｃ９〜時刻Ｃ１８に示す例）では、第２の音声認識手段５０３は、第１の音声認識手段５０２から認識対象となる音声データを受信する。すなわち、第１の音声認識手段５０２は、音声入力手段５０１からの識別子が付加されている音声データを受信し、第２の音声認識手段５０３に順次転送する。

制御手段５０４は、時刻Ｃ９に第１の音声認識手段５０２に対して識別子「ＣＩ１０」の音声データを音声認識するように、識別子「ＣＩ１０」を含む指令「ＣＣ３」を出す。

指令「ＣＣ３」を受けた時刻Ｃ１１に、第１の音声認識手段５０２は、音声認識処理を開始するとともに、第２の音声認識手段５０３に対して識別子「ＣＩ１０」の音声データを転送し、その後、時刻Ｃ１２に、第２の音声認識手段５０３に対しても同じ識別子「ＣＩ１０」の音声データに対する認識処理を開始するよう指令「ＣＣ４」を発行する。

第２の音声認識手段５０３は、第１の音声認識手段５０２からの識別子「ＣＩ１０」が付加された音声データパケットを受信し、指令「ＣＣ４」に従って音声認識処理を行う。

そして、第２の音声認識手段５０３は、音声認識処理が完了すると、その旨を示す認識処理完了通知「ＣＣ４’」を第１の音声認識手段に送信する。

第１の音声認識手段５０２は、認識処理完了通知「ＣＣ４’」を受けると、結果統合手段５０２ｆで自らの認識結果と第２の音声認識手段５０３の認識結果とを統合し、最終的な認識処理の完了を示す認識処理完了通知「ＣＣ３’」を制御手段５０４に送信する。

なお、第２の音声認識手段５０３がどの構成要素から音声データを受け取るかは、各構成要素間の伝送路の状態などによって決めることが望ましい。

例えば、音声入力手段５０１から音声認識手段への伝送路は比較的混雑しており、一方で音声認識手段同士の間の伝送路は比較的空いているのであれば、音声データは音声認識手段の間でやり取りする方がよい。

以上に説明したように、上述した第３の実施の形態では、ある音声認識手段が別の音声認識手段を呼び出して音声認識処理を実行させる構成としたので、見た目上、他の構成要素の関与なしに音声認識処理性能を向上させることができる。また、この際、識別子を指定した制御指令を用いることによって、第２の音声認識手段５０３が処理すべき音声データを厳密に指定することができる。

実施の形態４．
次に、本発明の第４の実施の形態について図面を参照して説明する。
図７は、本発明の第４の実施の形態における音声認識／合成システム７００の構成例を示すブロック図である。

図７に示すように、音声認識／合成システム７００は、音声生成手段７０１と、音声出力手段７０２と、制御手段７０３とを含む。音声生成手段７０１と、音声出力手段７０２と、制御手段７０３とは、伝送手段７０４によって接続されている。

音声生成手段７０１は、音声生成制御手段７０１ａと、音声生成処理手段７０１ｂと、パケット分割手段７０１ｃと、識別子付与手段７０１ｄと、パケット保持手段７０１ｅと、パケット送信手段７０１ｆとを含む。

音声生成手段７０１は、制御手段７０３からの制御指令を受けて音声を生成し、パケットに切り分け、それらに識別子を付与して、音声出力手段７０２に送信する。

音声生成制御手段７０１ａは、制御手段７０３などの他の構成要素からの制御指令を受信し、受信した制御指令にもとづいて音声生成手段７０１全体の動作を制御する。また、音声生成制御手段７０１ａは、他の構成要素からの要求に応じて音声生成処理の状況等の情報を送信する。

音声生成処理手段７０１ｂは、他の構成要素からの制御指令にもとづいて、音声データを生成する。具体的には、音声合成技術を用いて何らかの文字列から音声波形を合成する処理や、制御指令によって指定された音声波形ファイルを読み込む処理などを実行する。

識別子付与手段７０１ｄは、上述した音声認識／合成システム１００が備える識別子付与手段１０１ｄと同様に動作するが、さらに、あるパケットに付与する識別子を他の構成要素からの制御指令によって決定する機能を有する。

パケット分割手段７０１ｃ、パケット保持手段７０１ｅ、パケット送信手段７０１ｆは、それぞれ、上述した音声認識／合成システム１００が備えるパケット化手段１０１ｃ、パケット保持手段１０１ｅ、パケット送信手段１０１ｆと同様に構成される。

音声出力手段７０２は、音声出力制御手段７０２ａと、音声出力手段７０２ｂと、識別子判別手段７０２ｃと、パケット保持手段７０２ｄと、パケット受信手段７０２ｅとを含む。

音声出力手段７０２は、制御手段７０３からの制御指令を受けて音声を出力する処理や、制御手段７０３からの要求に応じて処理を行い、その処理結果を制御手段７０３に送信する処理などを行う。

制御手段７０３および伝送手段７０４は、それぞれ、上述した音声認識／合成システム１００が備える制御手段１０３および伝送手段１０４と同様に構成される。

次に、本例の音声認識／合成システム７００の動作について説明する。
図８は、本例の音声認識／合成システム７００による音声合成処理の例を示すタイムチャートである。

図８のタイムチャートには、制御手段７０３からの指示にもとづいて音声生成手段７０１で生成された２つの音声データが、音声出力手段７０２を通じて、制御手段７０３の意図した時刻にユーザ（ユーザ端末）に向けて出力される処理の例が示されている。

図８において、上下方向の実線の矢印はそれぞれの構成要素における時間の経過を表し、下に向かうほど未来の事象を表す。また、左右方向の実線の矢印は制御指令の流れを表し、破線の矢印は音声データの流れを表す。なお、「ユーザ」は、例えばパーソナルコンピュータや携帯情報端末などのユーザ端末を意味する。

制御手段７０３は、音声生成手段７０１に対して、音声生成処理を行い、その結果生成された音声データを音声出力手段７０２へ送信するように、時刻Ｄ０に指令「ＤＣ１」を発行する。このとき、制御手段７０３は、音声生成手段７０１に対して、生成された音声データの先頭パケットには識別子「ＤＩ０」を付与するよう指示する。

指令「ＤＣ１」を受信すると、音声生成手段７０１は、音声生成処理手段７０１ｂによって生成音声を作成し、パケットに分割する。分割した各パケットには、音声生成手段７０１は、識別子「ＤＩ０」から、識別子「ＤＩ１」，識別子「ＤＩ２」・・・を順番に付与していく。ここでは、最後のパケットに付与された識別子が識別子「ＤＩ４」であったとする。

指令「ＤＣ１」に応じた音声データの生成を完了すると、音声生成手段７０１は、その旨を示す生成完了通知「ＤＣ１’」を制御手段７０３に送信する。

次いで、時刻Ｄ６に、制御手段７０３は、音声出力手段７０２に対して、識別子「ＤＩ０」〜識別子「ＤＩ４」が付加されている音声データを時刻Ｄ１１から順次出力するように音声データ出力指令「ＤＣ３」を発行する。

音声データ出力指令「ＤＣ３」を受信すると、音声出力手段７０２は、音声生成手段７０１から当該識別子（識別子「ＤＩ０」〜識別子「ＤＩ４」）が付加された音声データを受信し、時刻Ｄ１１までにパケット保持手段７０２ｄに保持し、その後、時刻Ｄ１１から、識別子「ＤＩ０」〜識別子「ＤＩ４」が付加されている音声データを順次出力する。

なお、この例では、図８に示すように、制御手段７０３は、制御指令「ＤＣ１」に従って生成され出力される音声データに続けて別の音声データが出力されるように制御指令「ＤＣ２」を発行するものとする。

具体的には、制御指令「ＤＣ１」と同様にして、制御手段７０３は、音声生成手段７０１に対して、時刻Ｄ３に指令「ＤＣ２」を発行するとともに、生成された音声データの先頭パケットには識別子「ＤＩ５」を付与するよう指示する。

指令「ＤＣ２」を受信すると、音声生成手段７０１は、音声生成処理手段７０１ｂによって生成音声を作成し、パケットに分割する。分割した各パケットには、音声生成手段７０１は、識別子「ＤＩ５」から、識別子「ＤＩ６」，識別子「ＤＩ７」・・・を順番に付与していく。ここでは、最後のパケットに付与された識別子が識別子「ＤＩ１０」であったとする。

指令「ＤＣ２」に応じた音声データの生成を完了すると、音声生成手段７０１は、その旨を示す生成完了通知「ＤＣ２’」を制御手段７０３に送信する。

次いで、時刻Ｄ８に、制御手段７０３は、音声出力手段７０２に対して、識別子「ＤＩ５」〜識別子「ＤＩ１０」が付加されている音声データを順次出力するように音声データ出力指令「ＤＣ４」を発行する。このとき、音声データ出力指令「ＤＣ４」にて、音声データの出力を実際に開始する時刻として、出力対象の音声データの前に出力される音声データ（識別子「ＤＩ０」〜識別子「ＤＩ４」が付加されている音声データ）の開始時刻Ｄ１１に、その音声データの出力時間の長さを加えることによって算出される時刻Ｄ１２を指定する。

なお、音声データの出力時間の長さは、何らかの方法であらかじめ取得しておくようにすればよい。具体的には、例えば、識別子の定義によっては、識別子そのものから計算できる。また、例えば、音声生成手段７０１に問い合わせることによって取得しておいてもよい。さらに、例えば、最初の制御指令「ＤＣ１」に対する応答「ＤＣ１’」の際に、同時に対応する音声データの出力時間の長さを示す情報を送信するようにしてもよい。

また、図８に示した方法とは別の方法として、音声出力手段７０２に対して、識別子「ＤＩ４」の音声データの出力を完了した直後に、識別子「ＤＩ５」〜識別子「ＤＩ１０」を出力するよう指令を出すようにして、連続して音声出力を行うようにすることも考えられる。

以上に説明したように、上述した第４の実施の形態では、音声データを実際に出力することを指令する際に、その出力時刻だけでなく処理対象とする音声データの識別子を指定する構成としたので、適切な時刻に適切な音声データが出力されるよう保証することができる。

実施の形態５．
次に、本発明の第５の実施の形態について図面を参照して説明する。
図９は、本発明の第５の実施の形態における音声認識／合成システム９００の構成例を示すブロック図である。

図９に示すように、音声認識／合成システム９００は、音声入力手段９０１と、音声認識手段９０２と、音声生成手段９０３と、音声出力手段９０４と、制御手段９０５とを含む。音声入力手段９０１と、音声認識手段９０２と、音声生成手段９０３と、音声出力手段９０４と、制御手段９０５とは、伝送手段９０６によって接続されている。

なお、制御手段９０５を除く各構成要素のうち１または２以上の構成要素を備えていない構成としてもよい。

音声入力手段９０１、音声認識手段９０２、制御手段９０５、伝送手段９０６は、それぞれ、上述した音声認識／合成システム１００が備える音声入力手段１０１、音声認識手段１０２、制御手段１０３、伝送手段１０４と同様に構成される。

また、音声生成手段９０３と音声出力手段９０４は、それぞれ、上述した音声認識／合成システム７００が備える音声生成手段７０１と音声出力手段７０２と同様に構成される。従って、図９に示す各構成要素における個々の動作の詳細については省略する。

本例の音声認識／合成システム９００の動作は、上述した第１の実施の形態における音声認識処理と第４の実施の形態における音声合成処理とを組み合わせたものである。

従って、第５の実施の形態では、上述した第１の実施の形態および第４の実施の形態にてそれぞれ説明した効果をともに得ることができる。

さらに、第５の実施の形態では、音声入力手段９０１と音声出力手段９０４を組み合わせることで、バージイン機能を実現することができる。従って、従来の技術と比較して、破棄される入力音声データの区間を小さく抑えることができる。

なお、図９に示す音声認識／合成システム９００に、上述した第２の実施の形態や、第３の実施の形態で示した構成をさらに組み合わせるようにしてもよい。そのように構成すれば、上述した第２の実施の形態や第３の実施の形態にてそれぞれ説明した効果をも同時に享受することができる。

以上のように、上述した各実施の形態では、音声データパケットにシステム内で一意に識別される識別子を付加して処理を行う構成としたので、音声データと、音声認識制御または音声合成制御の制御指令との本質的に独立した情報を適切に同期制御することができ、音声認識／合成システムを構成する各構成要素を適切に協調動作させることができる。

すなわち、同期すべき各データの先頭をデータの送信元が基準点として設定しておくといった特許文献１や特許文献２に開示されているような構成ではなく、音声データパケットにシステム内で一意に識別される識別子を付加して処理を行う構成としているので、同期のタイミングを設定できる構成要素が限定されることなく、システムにおける任意の構成要素が任意の同期タイミングを自由に設定することができるようになり、柔軟な処理を行うことが可能となっている。

また、上述した各実施の形態では、音声データパケットにシステム内で一意に識別される識別子を付加し、その識別子を設定した制御指令を行う構成としたことで、任意の構成要素が自由に同期タイミングを設定することによって、音声データと、音声認識制御または音声合成制御の制御指令との本質的に独立した情報を同期させることができる。従って、個々の構成要素がよりインテリジェントに動作することができるようになる。

また、上述した各実施の形態では、音声データパケットにシステム内で一意に識別される識別子を付加し、その識別子を設定した制御指令を行う構成としたことで、各音声認識／音声合成処理にて制御対象とする音声データを容易かつ厳密に特定することができ、音声認識精度や合成音声品質の劣化を防ぐことができる。

また、上述した各実施の形態では、音声認識処理の対象となる音声データの区間を識別子によって厳密に指定する構成としているので、入力音声の欠落、特に発話の先頭部分が欠落することを回避することができ、音声認識精度の低下を防ぐことができる。また、雑音の混入を最小限にするようにすれば、発話区間の誤検出を抑制することができる。

上述した各実施の形態のように、音声データ伝送系とコマンド伝送系とが独立している場合には、音声認識処理の開始を指令するコマンドに対応する音声データの区間がどのタイミングで音声認識手段に到着するかは不定である。上述した各実施の形態では、音声データの到着タイミングを知ることなしに、処理対象とされている適切な音声データ区間を特定することができ、適切に認識処理を行うことができる。

また、上述した各実施の形態では、音声認識処理の開始を指令するコマンドが頻繁に発行される状況においても、各々のコマンドの対象となる音声データを混同することなく識別することができ、ある音声認識処理の対象となる音声データ区間を厳密に指定することができるので、処理対象の音声に適したパラメータ設定を用いた音声認識処理が適切に行われることを保証できる。

すなわち、上述した各実施の形態のように、音声データと制御指令とがそれぞれ異なる伝送路を通るため、その順序関係はまったく保証されない。上述した各実施の形態では、たとえ制御指令を発行した構成要素が意図した順序と異なる順序で音声データが音声認識構成要素に到着したとしても、処理対象とされている適切な音声データ区間を確実に特定することができ、適切に認識処理を行うことができる。従って、例えば姓名の発話と電話番号の発話が連続してなされてときに、前者に対して電話番号用のパラメータ設定を用い、後者に対して姓名用のパラメータ設定を用いて認識処理を行ってしまうようなことは防止される。

なお、上述した各実施の形態において、付加する識別子の管理を工夫（例えば、音声データと付加した識別子との組合せや、入力した音声データを記憶保持しておく）するようにすれば、任意の時刻に発行された制御指令に別の任意の時刻の音声データを対応付ける構成とすることができる。そのように構成すれば、制御指令が発行される時刻よりも過去や未来の任意の時刻に入力された音声データであっても、その制御指令によって指令することができる。このように、制御指令が発行される時刻よりも過去や未来の任意の時刻に入力された音声データに対して、当該制御指令によって指令を行うことができるので、ある処理と別の処理との間の見かけ上のアイドル時間を最小化することができるようになる。なお、実際には、指定された音声データが確実に得られるような何らかの工夫（過去のデータのバッファリングや未来の制御のスケジューリング）を併せて実装する必要がある。

なお、上述した各実施の形態においては、音声出力を実行する時刻を制御指令に設定する例（例えば制御指令「ＤＣ３」）についてだけ述べたが、音声認識処理や音声合成処理を実行する時刻を制御指令に設定するようにしてもよい。この場合、制御指令に従って、その制御指令に設定されている時刻に、その制御指令に設定されている音声データパケットに対して音声認識処理や音声合成処理が実行されることになる。

なお、上述した各実施の形態では特に言及していないが、本システム１００，３００，５００，７００，９００において実行される各処理は、本システム１００等に搭載されている制御プログラム（同期制御プログラム）に従って実行される。この制御プログラムは、例えば、入力した音声データを解析する音声認識処理または／および音声データを生成する音声合成処理を行う音声認識／合成システムに同期制御を実行させる同期制御プログラムであって、音声認識／合成システムを構成するコンピュータに、音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報を設定した制御指令を発行するステップと、制御指令に従って、当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または／および音声合成処理を行うステップとを実行させるためのプログラムである。

次に、本発明の具体的実施例について説明する。
以下に説明する実施例は、上述した第５の実施の形態に対応するものである。

図１０は、本実施例における音声認識／合成システム１０００を示す説明図である。図１０に示すように、音声認識／合成システム１０００は、音声対話管理サーバ１００１と、入力端末装置１００２と、音声入出力サーバ１００３と、音声認識サーバ１００４と、音声合成サーバ１００５と、を含む。

音声対話管理サーバ１００１と、入力端末装置１００２と、音声入出力サーバ１００３と、音声認識サーバ１００４と、音声合成サーバ１００５とは、それぞれ、コンピュータネットワーク１００６によって接続されている。

音声対話管理サーバ１００１を除く各コンピュータ１００２，１００３，１００４，１００５は、それぞれ何台でも接続することができる。また、一台の装置で任意の二台以上の装置の役割を兼ねることもできる。例えば、一台のコンピュータで音声対話管理サーバ１００１と音声入出力サーバ１００３とを兼ねることができる。

あるいは、一台のコンピュータがすべての構成要素を兼ねることもできる。またさらに、上述した第３の実施の形態のように、一台の音声認識サーバ１００４ないし音声合成サーバ１００５が、別の音声認識サーバ１００４、音声合成サーバ１００５を呼び出すプロキシサーバの役割を兼ねてもよい。

音声対話管理サーバ１００１は、システム全体を制御する制御装置であり、上述した制御手段９０５（図９参照）に相当する機能を持ったプログラムが動作するコンピュータである。また、複数の音声認識サーバまたは音声合成サーバから一台を選択し、音声入出力サーバに仲介する負荷分散処理を行う機能も有する。

入出力端末装置１００２は、ユーザが直接利用する入出力装置であり、音声入出力機能の他、ディスプレイ装置やキーボード、マウス、タッチパネル等を搭載することもできる。

具体的には、入出力端末装置１００２として、ＰＣ（パーソナルコンピュータ）、電話（固定電話、携帯電話）、ＰＤＡ（Personal Digital Assistants）、ネットワーク対応型家電等が用いられる。

入出力端末装置１００２は、音声認識／合成システム９００が備える制御手段９０５、音声入力手段９０１および音声出力手段９０４のそれぞれの機能の一部を兼ねたものである。

音声入出力サーバ１００３は、入出力端末装置１００２によって入力された音声データを音声パケットに分割し、識別子を付与し、各構成要素に送信する機能を有するサーバ装置である。

また、音声入出力サーバ１００３は、逆に、他の構成要素から受信したパケットを結合し、音声出力装置１００２に送る機能をも有する。

すなわち、音声入出力サーバ１００３は、音声認識／合成システム９００が備える音声入力手段９０１および音声出力手段９０４のそれぞれの機能の一部を兼ね備えたものである。なお、この実施例では、音声データの識別子として、タイムスタンプが使用される。

音声認識サーバ１００４は、音声入出力サーバ１００３から得られた音声データに対して音声認識処理を行い、その結果を音声対話管理サーバ１００１に送信する処理を実行するサーバ装置である。音声認識サーバ１００４は、音声認識／合成システム９００が備える音声認識手段９０２に相当する。

音声合成サーバ１００５は、音声対話管理サーバ１００１の指示に従って音声データを合成し、その結果を音声入出力サーバ１００３に送信する機能を有するサーバ装置である。

なお、音声合成処理がその都度行われる必要はなく、あらかじめ合成した結果をキャッシュしておき、キャッシュしてある合成音声を用いるようにしてもよい。また、合成音声だけでなく、任意の波形ファイルを再生することで音声データを生成するようにしてもよい。

音声合成サーバ１００５は、音声認識／合成システム９００が備える音声生成手段９０３に相当する。

コンピュータネットワーク１００６は、例えば一般的に用いられるＬＡＮであるが、伝送遅延の大きな網、例えば無線ネットワークや電話回線網、ＷＡＮを用いることもできる。

入出力端末装置１００２と音声入出力サーバ１００３とを二つ組み合わせることで、音声認識／合成システム９００が備える音声入力手段９０１および音声出力手段９０４の機能を実現する。

本実施例の音声認識／合成システム１０００の各構成要素が上記のように区分されているのは、さまざまな既存の入出力端末装置をこの対話システム１０００で利用可能とするために、各々の入出力端末装置による音声入出力の違いを音声入出力サーバ１００３で吸収しているからである。

従って、図１０では、各入出力端末装置ごとに異なる音声入出力サーバに接続されている。ただし、この図１０に示す例は、入出力端末装置と音声入出力サーバが常に１対１の関係にあることを示しているわけではない。ある音声入出力サーバに対応する入出力端末装置が複数あれば、１つの音声入出力サーバに複数種類の複数個の入出力端末装置が接続される構成としてもよい。

なお、音声認識／合成システム１０００における各部の動作は、上述した第５の実施の形態における音声認識／合成システム９００における各部の動作と同様であるため、その詳細な説明は省略する。

本発明によれば、自動音声応答装置等の音声対話システムの他、音声リモコンや音声インターネット閲覧装置、また障害者向けの音声ユーザインタフェース、あるいはロボットの音声対話機能などの各種の用途に適用するのに有用である。

また、本発明によれば、動画像や株価など、音声以外の時系列データを厳密に扱う用途に適用することも可能である。

本発明の第１の実施の形態における音声認識／合成システムの構成例を示すブロック図である。本発明の第１の実施の形態における音声認識／合成システムの動作の一例を示すタイムチャートである。本発明の第２の実施の形態における音声認識／合成システムの構成例を示すブロック図である。本発明の第２の実施の形態における音声認識／合成システムの動作の一例を示すタイムチャートである。本発明の第３の実施の形態における音声認識／合成システムの構成例を示すブロック図である。本発明の第３の実施の形態における音声認識／合成システムの動作の一例を示すタイムチャートである。本発明の第４の実施の形態における音声認識／合成システムの構成例を示すブロック図である。本発明の第４の実施の形態における音声認識／合成システムの動作の一例を示すタイムチャートである。本発明の第５の実施の形態における音声認識／合成システムの構成例を示すブロック図である。本発明の実施例における音声認識／合成システムの構成を示すブロック図である。

符号の説明

１００，３００，５００，７００，９００，１０００音声認識／合成システム
１０１，３０１，５０１音声入力手段
１０２，３０２，３０２ａ，３０２ｂ，３０２ｎ音声認識手段
１０３，３０３，５０４，７０３制御手段
１０４，３０４，５０５，７０４伝送手段
１０１ａ音声入力制御手段
１０１ｂ音声入力処理手段
１０１ｃ，７０１ｃパケット分割手段
１０１ｄ，７０１ｄ識別子付与手段
１０１ｅ，１０２ｄ，５０２ｄ，７０１ｅ，７０２ｄパケット保持手段
１０１ｆ，７０１ｆパケット送信手段
１０２ａ，５０２ａ音声認識制御手段
１０２ｂ，５０２ｂ音声認識処理手段
１０２ｃ，５０２ｃ，７０２ｃ，９０４ｂ識別子判別手段
１０２ｅ，５０２ｅ，７０２ｅパケット受信手段
１０３ａ，３０３ａユーザインタフェース手段
１０３ｂ，３０３ｂ対話管理手段
３０３ｃ，５０２ｆ結果統合手段
５０２第１の音声認識手段
５０３第２の音声認識手段
７０１音声生成手段
７０２音声出力手段
７０１ａ音声生成制御手段
７０１ｂ音声生成処理手段
７０２ａ音声出力制御手段
７０２ｂ音声出力処理手段
１００１音声対話管理サーバ
１００２入出力端末装置
１００３音声入出力サーバ
１００４音声認識サーバ
１００５音声合成サーバ

Claims

入力した音声データを解析する音声認識処理または／および音声データを生成する音声合成処理を行う音声認識／合成システムであって、
音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報として前記音声分割データの順序を識別する情報を設定した制御指令を発行する制御指令手段と、
前記制御指令手段からの前記制御指令に従って、当該制御指令に識別情報として設定された前記順序を識別する情報によって特定される音声分割データ以降の音声データに対して音声認識処理または／および音声合成処理を行う音声処理手段とを備えた
ことを特徴とする音声認識／合成システム。
入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加する識別情報付加手段を備えた
請求項１記載の音声認識／合成システム。
音声データの入力処理を行う音声入力処理手段と、
前記音声入力処理手段によって入力された音声データを複数の区間に分割した音声分割データを生成する音声データ分割手段と、を備えた
請求項１または請求項２記載の音声認識／合成システム。
制御指令手段は、音声認識処理または／および音声合成処理の実行時刻を設定した制御指令を発行し、
音声処理手段は、前記制御指令手段からの前記制御指令に従って、当該制御指令に設定されている実行時刻となったときに、当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または／および音声合成処理を行う
請求項１から請求項３のうちいずれかに記載の音声認識／合成システム。
複数の音声処理手段を備えるとともに、
前記複数の音声処理手段それぞれの音声認識処理または／および音声合成処理の処理結果を統合する処理結果統合手段を備えた
請求項１から請求項４のうちいずれかに記載の音声認識／合成システム。
制御指令手段は、複数の音声処理手段のうちの一の音声処理手段に対して制御指令を発行し、
前記一の音声処理手段は、前記制御指令手段からの制御指令の一部または全部を他の音声処理手段に転送する制御指令転送手段を有する
請求項５記載の音声認識／合成システム。
一の音声処理手段は、制御指令手段からの制御指令によって指示された処理対象の音声データの一区間または全区間を他の音声処理手段に転送する音声データ転送手段を有する
請求項６記載の音声認識／合成システム。
識別情報付加手段は、識別情報として、タイムスタンプ、シリアル番号、音声認識処理または／および音声合成処理による音声対話の処理シーケンス番号、またはこれらの組み合わせを、各音声分割データそれぞれに付加する
請求項１から請求項７のうちいずれかに記載の音声認識／合成システム。
識別情報の時間順序性を管理する機能を提供する識別情報管理手段を備えた
請求項１から請求項８のうちいずれかに記載の音声認識／合成システム。
識別情報管理手段は、システムを構成する各構成要素でそれぞれ用いられる絶対時刻を同期させ、かつ、識別情報に特定の絶対時刻を対応させることで、各識別情報の時間順序性を管理する
請求項９記載の音声認識／合成システム。
入力した音声データを解析する音声認識処理または／および音声データを生成する音声合成処理を行う音声認識／合成システムにおける同期制御方法であって、
音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報として前記音声分割データの順序を識別する情報を設定した制御指令を発行し、
前記制御指令に従って、当該制御指令に識別情報として設定された前記順序を識別する情報によって特定される音声分割データ以降の音声データに対して音声認識処理または／および音声合成処理を行う
ことを特徴とする同期制御方法。
入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加する
請求項１１記載の同期制御方法。
音声データの入力処理を行い、
前記入力処理によって入力された音声データを複数の区間に分割した音声分割データを生成する
請求項１１または請求項１２記載の同期制御方法。
音声認識処理または／および音声合成処理の実行時刻を設定した制御指令を発行し、
前記制御指令に従って、当該制御指令に設定されている実行時刻となったときに、当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または／および音声合成処理を行う
請求項１１から請求項１３のうちいずれかに記載の同期制御方法。
制御指令に従って異なる処理手段で行われた複数の音声認識処理または／および音声合成処理の処理結果を統合する
請求項１１から請求項１４のうちいずれかに記載の同期制御方法。
制御指令に従って音声認識処理または／および音声合成処理を行ったあと、前記制御指令の一部または全部を他の処理手段に転送し、
前記転送された制御指令に従って前記他の処理手段にて音声認識処理または／および音声合成処理を行う
請求項１５記載の同期制御方法。
制御指令手段からの制御指令によって指示された処理対象の音声データの一区間または全区間を他の処理手段に転送する
請求項１６記載の同期制御方法。
各音声分割データそれぞれに付加する識別情報として、タイムスタンプ、シリアル番号、音声認識処理または／および音声合成処理による音声対話の処理シーケンス番号、またはこれらの組み合わせのいずれかを用いる
請求項１１から請求項１７のうちいずれかに記載の同期制御方法。
入力した音声データを解析する音声認識処理または／および音声データを生成する音声合成処理を行う音声認識／合成システムに同期制御を実行させる同期制御プログラムであって、
前記音声認識／合成システムを構成するコンピュータに、
音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報として前記音声分割データの順序を識別する情報を設定した制御指令を発行するステップと、
前記制御指令に従って、当該制御指令に識別情報として設定された前記順序を識別する情報によって特定される音声分割データ以降の音声データに対して音声認識処理または／および音声合成処理を行うステップとを
実行させるための同期制御プログラム。
コンピュータに、
さらに、入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加するステップを
実行させる請求項１９記載の同期制御プログラム。
コンピュータに、
さらに、音声データの入力処理を行うステップと、
前記入力処理によって入力された音声データを複数の区間に分割した音声分割データを生成するステップとを
実行させる請求項１９または請求項２０記載の同期制御プログラム。
各音声分割データそれぞれに付加する識別情報として、タイムスタンプ、シリアル番号、音声認識処理または／および音声合成処理による音声対話の処理シーケンス番号、またはこれらの組み合わせのいずれかを用いる
請求項１９から請求項２１のうちいずれかに記載の同期制御プログラム。
音声データの入力処理を行う音声入力処理手段と、
前記音声入力処理手段によって入力された音声データを複数の区間に分割した音声分割データを生成する音声データ分割手段と、
前記音声データ分割手段によって分割された各音声分割データに、システム内で一意に識別される識別情報として前記音声分割データの順序を識別する情報をそれぞれ付加する識別情報付加手段と、
前記音声入力処理手段によって入力された音声データのうち、前記順序を識別する情報によって特定される音声分割データ以降の音声データを解析する音声認識処理または／および音声データを生成する音声合成処理を行う音声処理手段に対して、処理対象の音声分割データを特定するための識別情報として前記順序を識別する情報を設定した制御指令を発行する制御指令手段と、を備えた
ことを特徴とする同期制御装置。