JP4483428B2 - 音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置 - Google Patents

音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置 Download PDF

Info

Publication number
JP4483428B2
JP4483428B2 JP2004188408A JP2004188408A JP4483428B2 JP 4483428 B2 JP4483428 B2 JP 4483428B2 JP 2004188408 A JP2004188408 A JP 2004188408A JP 2004188408 A JP2004188408 A JP 2004188408A JP 4483428 B2 JP4483428 B2 JP 4483428B2
Authority
JP
Japan
Prior art keywords
voice
data
processing
speech
control command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004188408A
Other languages
English (en)
Other versions
JP2006011066A (ja
Inventor
健太郎 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004188408A priority Critical patent/JP4483428B2/ja
Publication of JP2006011066A publication Critical patent/JP2006011066A/ja
Application granted granted Critical
Publication of JP4483428B2 publication Critical patent/JP4483428B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、入力した音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声認識/合成システム等に関し、特に、音声データと音声認識/合成処理の制御指令とを同期させる音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置に関する。
入力した音声データを解析する音声認識技術や音声データを生成する音声合成技術を応用した音声応用システムは、音声データの入出力を行う音声データ入出力部と、音声認識処理または/および音声合成処理を行う音声認識/合成処理部と、音声データ入出力部や音声認識/合成処理部を制御する制御部とを含む構成とされている。
従来、上記のような音声応用システムは、プログラム構成要素やハードウェアブロック単位で実現されてきた。ところが、近年の通信ネットワーク技術の進展に伴い、音声応用システムを構成する各部がサーバ単位で実現される例が増えつつある。
しかし、各部がサーバ単位で実現された互いに疎な構成要素からなる音声対話システムにおいては、伝送遅延が発生し得る通信ネットワークを介して構成要素間でデータをやりとりするため、何らかの時間同期制御機構が必要となる。
仮に、時間同期制御機構を備えないこととすると、各部は適切に協調動作することができず、音声データの取りこぼし、雑音の誤検出、不適当な音響/言語モデル、パラメータの適用による認識性能の低下や出力音声品質の劣化などの様々な問題が生じるおそれがある。
例えば、送信側端末によって、同じ時間軸上に展開していた音声データと他のメディアデータ(画像等)とが分離され、別々の系を通して伝送されたあと、受信側端末によって、各々のメディアデータを受信して一つの時間軸上に再び同期編成することができるようにするのは、マルチメディアデータ通信の分野ではありふれた課題である。
特許文献1には、同一の時間軸上に展開していたマルチメディアデータがメディアごとに多重分離されて別個に伝送され、受信側装置でそれらのデータが同期出力されるようにした技術が開示されている。
また、特許文献2には、与えられたテキストから時間同期制御情報が付加された音声データと動画像データとが生成される音声応用システムが開示されている。
特開2003−204492号公報 特開2003−216173号公報
ところが、上述した従来技術では、音声データと音声認識/合成制御指令のような本質的に異なる時間軸上に存在する情報については、同期制御を行うことができないという課題があった。
すなわち、音声データと音声認識/合成制御指令の2つの情報は、どのタイミングで同期させるべきかが自明でないため、同期制御することはできなかった。
特許文献1や特許文献2には、複数のメディアデータの同期を行う技術が開示されているが、同期制御の対象となっている各メディアデータは、元来同一の時間軸上に展開されるべきものであるので、どのようなタイミングで同期すべきかは自明である。
しかし、音声データと音声認識/合成制御指令の間には、自明な同期タイミングは存在しないため、上記の各特許文献に記載されている技術を適用しても、音声データと音声認識/合成制御指令との同期制御を行うことはできない。
この場合、適当な同期タイミングを仮定(例えば、音声認識/合成処理部が音声認識開始コマンドを受け取った時刻に直近の音声データを認識処理対象の先頭データであるとみなす等)して動作すれば、システムの環境等によっては上記のような問題が生じないこともある。
しかし、上記のような同期タイミングを仮定する手法では、伝送遅延が非常に大きい環境や、音声データに対応する制御指令が次々と発行されるようなシビアな状況においては破綻してしまうため、やはり音声データと音声認識/合成制御指令との同期制御を確実に行うことはできなかった。
本発明は、上述した問題を解消し、音声データと音声認識/合成制御指令の二つの情報を同期させて制御することができるようにすることを目的とする。
本発明の音声認識/合成システムは、入力した音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声認識/合成システム(例えば音声認識/合成システム100,300,500,700,900,1000)であって、音声データが複数の区間に分割された各音声分割データ(例えば音声データパケット)のうち処理対象の音声分割データを特定するための識別情報(例えば識別子)として音声分割データの順序を識別する情報を設定した制御指令を発行する制御指令手段(例えば制御手段103,303,504,703,905、音声対話管理サーバ1001)と、制御指令手段からの制御指令に従って、当該制御指令に識別情報として設定された順序を識別する情報によって特定される音声分割データ以降の音声データに対して音声認識処理または/および音声合成処理を行う音声処理手段(例えば音声認識手段102,302,502,503,902、音声生成手段701、903)と、を備えたことを特徴とする。
上記のように構成したことで、音声データの伝送系と制御指令の伝送系とが独立している場合であっても、音声認識処理または/および音声合成処理の処理対象となる音声分割データを厳密に指定することができ、音声データと制御指令とを同期させて制御することができる。
入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加する識別情報付加手段(例えば識別子付与手段101d)を備えていてもよい。
音声データの入力処理を行う音声入力処理手段(例えば音声入力処理手段101b)と、音声入力処理手段によって入力された音声データを複数の区間に分割した音声分割データ(例えば音声データパケット)を生成する音声データ分割手段(例えばパケット分割手段101c)と、を備えていてもよい。
制御指令手段は、音声認識処理または/および音声合成処理の実行時刻を設定した制御指令を発行し、音声処理手段は、制御指令手段からの制御指令に従って、当該制御指令に設定されている実行時刻となったときに、当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または/および音声合成処理を行うように構成されていてもよい。
複数の音声処理手段(例えば音声認識手段302a,302b)を備えるとともに、複数の音声処理手段それぞれの音声認識処理または/および音声合成処理の処理結果を統合する処理結果統合手段(例えば結果統合手段303c)を備えていてもよい。
制御指令手段は、複数の音声処理手段(例えば第1の音声認識手段502と第2の音声認識手段503)のうちの一の音声処理手段(例えば第1の音声認識手段)に対して制御指令(例えば図6に示す制御指令「CC1」)を発行し、一の音声処理手段は、制御指令手段からの制御指令の一部または全部(例えば図6に示す制御指令「CC2」)を他の音声処理手段に転送する制御指令転送手段(例えば音声認識制御手段502a)を有する構成とされていてもよい。
一の音声処理手段は、制御指令手段からの制御指令によって指示された処理対象の音声データの一区間または全区間(例えば図6に示す識別子「CI10」が付加された音声データパケット)を他の音声処理手段に転送する音声データ転送手段(例えばパケット送受信手段502e)を有する構成とされていてもよい。
識別情報付加手段は、識別情報として、例えば、タイムスタンプ、シリアル番号、音声認識処理または/および音声合成処理による音声対話の処理シーケンス番号、またはこれらの組み合わせを、各音声分割データそれぞれに付加する。
識別情報の時間順序性を管理する機能を提供する識別情報管理手段(例えば制御手段103)を備えていてもよい。識別情報管理手段は、システムを構成する各構成要素でそれぞれ用いられる絶対時刻を同期させ(例えばNTPサーバからの時刻情報を利用して同期させる)、かつ、識別情報に特定の絶対時刻(例えば識別情報が付与されたときの時刻)を対応させることで、各識別情報の時間順序性(例えば付与された順番)を管理する機能を有する。
また、本発明の同期制御方法は、入力した音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声認識/合成システム(例えば音声認識/合成システム100,300,500,700,900,1000)であって、音声データが複数の区間に分割された各音声分割データ(例えば音声データパケット)における同期制御方法であって、音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報(例えば識別子)として音声分割データの順序を識別する情報を設定した制御指令(例えば図2における指令「AC1」)を発行し、制御指令に従って、当該制御指令に識別情報として設定された順序を識別する情報によって特定される音声分割データ(例えば識別子「AI0」が付加された音声データパケット)以降の音声データに対して音声認識処理または/および音声合成処理を行うことを特徴とする。
上記のように構成したことで、音声データの伝送系と制御指令の伝送系とが独立している場合であっても、音声認識処理または/および音声合成処理の処理対象となる音声分割データを厳密に指定することができ、音声データと制御指令とを同期させて制御することができる。
入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加するように構成されていてもよい。
音声データの入力処理を行い、入力処理によって入力された音声データを複数の区間に分割した音声分割データを生成するように構成されていてもよい。
音声認識処理または/および音声合成処理の実行時刻を設定した制御指令を発行し、制御指令に従って、当該制御指令に設定されている実行時刻となったときに、当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または/および音声合成処理を行うように構成されていてもよい。
制御指令に従って異なる処理手段で行われた複数の音声認識処理または/および音声合成処理の処理結果を統合するように構成されていてもよい。
制御指令に従って音声認識処理または/および音声合成処理を行ったあと、制御指令の一部または全部を他の処理手段に転送し、転送された制御指令に従って他の処理手段にて音声認識処理または/および音声合成処理を行うように構成されていてもよい。
制御指令手段からの制御指令によって指示された処理対象の音声データの一区間または全区間を他の処理手段に転送するように構成されていてもよい。
各音声分割データそれぞれに付加する識別情報として、例えば、タイムスタンプ、シリアル番号、音声認識処理または/および音声合成処理による音声対話の処理シーケンス番号、またはこれらの組み合わせのいずれかを用いる。
また、本発明の同期制御プログラムは、入力した音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声認識/合成システム(例えば音声認識/合成システム100,300,500,700,900,1000)に同期制御を実行させる同期制御プログラムであって、音声認識/合成システムを構成するコンピュータ(例えば、音声入力手段901、音声認識手段902、音声生成手段903、音声出力手段904、制御手段905)に、音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報(例えば識別子)として音声分割データの順序を識別する情報を設定した制御指令を発行するステップと、制御指令に従って、当該制御指令に識別情報として設定された順序を識別する情報によって特定される音声分割データ以降の音声データに対して音声認識処理または/および音声合成処理を行うステップとを実行させるためのものである。
上記のように構成したことで、音声認識/合成システムにおける音声データの伝送系と制御指令の伝送系とが独立している場合であっても、音声認識/合成システムを構成するコンピュータに、音声認識処理または/および音声合成処理の処理対象となる音声分割データを厳密に指定させることができ、音声データと制御指令とを同期させて制御させることができるようになる。
コンピュータに、さらに、入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加するステップを実行させるように構成されていてもよい。
コンピュータに、さらに、音声データの入力処理を行うステップと、入力処理によって入力された音声データを複数の区間に分割した音声分割データを生成するステップとを実行させるように構成されていてもよい。
各音声分割データそれぞれに付加する識別情報として、例えば、タイムスタンプ、シリアル番号、音声認識処理または/および音声合成処理による音声対話の処理シーケンス番号、またはこれらの組み合わせのいずれかを用いる。
さらに、本発明の同期制御装置は、音声データの入力処理を行う音声入力処理手段(例えば音声入力処理手段101b)と、音声入力処理手段によって入力された音声データを複数の区間に分割した音声分割データを生成する音声データ分割手段(例えばパケット分割手段101c)と、音声データ分割手段によって分割された各音声分割データに、システム内で一意に識別される識別情報(例えば識別子)として音声分割データの順序を識別する情報をそれぞれ付加する識別情報付加手段(例えば識別子付与手段101d)と、音声入力処理手段によって入力された音声データのうち、順序を識別する情報によって特定される音声分割データ以降の音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声処理手段(例えば音声認識手段102)に対して、処理対象の音声分割データを特定するための識別情報として順序を識別する情報を設定した制御指令を発行する制御指令手段(例えば制御手段103)と、を備えたことを特徴とする。
上記のように構成したことで、音声データの伝送系と制御指令の伝送系とが独立している場合であっても、音声認識処理または/および音声合成処理の処理対象となる音声分割データを厳密に指定することができ、音声処理手段に、音声データと制御指令とを同期させて制御させることができる。
本発明によれば、音声データの伝送系と制御指令の伝送系とが独立している場合であっても、音声認識処理または/および音声合成処理の処理対象となる音声分割データを厳密に指定することができ、音声データと制御指令とを同期させて制御することができる。
以下、本発明の実施の形態について図面を参照して説明する。
実施の形態1.
図1は、本発明の第1の実施の形態における音声認識/合成システム100の構成例を示すブロック図である。
図1に示すように、本例の音声認識/合成システム100は、音声入力手段101と、音声認識手段102と、制御手段103とを含む。音声入力手段101と、音声認識手段102と、制御手段103とは、伝送手段104によって接続されている。
音声入力手段101は、音声入力制御手段101aと、音声入力処理手段101bと、パケット分割手段101cと、識別子付与手段101dと、パケット保持手段101eと、パケット送信手段101fとを含む。
音声入力手段101は、制御手段103からの制御指令にもとづいて音声データを入力する処理や、入力した音声データをパケットに分割して音声認識手段102に送信する処理などの各種の処理を実行する。
音声入力制御手段101aは、制御手段103などの他の構成要素からの制御指令を受信し、受信した制御指令にもとづいて音声入力手段101全体の動作を制御する。また、音声入力制御手段101aは、他の構成要素からの要求に応じて、音声入力処理の状況等を示す情報を、他の構成要素に送信する。
音声入力処理手段101bは、外部からの音声データを受信し、受信した音声データに対して必要に応じて各種の処理を施す。例えば、音声入力処理手段101bは、入力した音声データがアナログ音声であればA/D変換を行い、入力した音声データが何らかのエンコードを施されたデータであればデコード処理を行う。なお、音声入力処理手段101bは、雑音抑制処理等を行う機能を有していてもよい。
パケット分割手段101cは、音声データを適切な区間に区切り、各区間毎に音声データの再現に必要な付帯情報を付加することで、音声データをパケットと呼ばれる単位に分割する。付帯情報としては、シリアル番号、タイムスタンプ、パケットサイズ、量子化パラメータ等が用いられる。
識別子付与手段101dは、パケット分割手段101cによって生成された各パケットを一意に識別するための識別子を付与する処理を実行する。
パケット保持手段101eは、必要に応じてパケットをバッファリングする処理を実行する。
なお、実際には、パケット保持手段101eが一度に保持できるパケットの個数は有限であるため、パケットが失われることがある。パケットが失われると、その失われたパケットに対する処理要求を行うことができなくなるという問題が生じる。
しかしながら、多くの場合、保持しておく必要のあるパケットは対話の流れによってある程度限定されるので、適当なバッファ管理アルゴリズムを用いておけば、実用上問題になることは少ない。
もし、問題になってしまうようであれば、制御手段103が対話フローから必要とされるパケットを保持し続けるよう制御指令を発行するようにすればよい。あるいは、必要なパケットを保持する他の構成要素から取得し直すようにしてもよい。
パケット送信手段101fは、パケット保持手段101eに保持されているパケットを、音声認識手段102などの他の構成要素へ送信する処理を実行する。
音声認識手段102は、音声認識制御手段102aと、音声認識処理手段102bと、識別子判定手段102cと、パケット保持手段102dと、パケット受信手段102eとを含む。
音声認識手段102は、制御手段103からの制御指令を受けて音声を認識し、制御手段103からの要求に応じて認識結果を出力する。
音声認識制御手段102aは、制御手段103などの他の構成要素からの制御指令を受信し、受信した制御指令にもとづいて音声認識手段102全体の動作を制御する。また、音声認識制御手段102aは、他の構成要素からの要求に応じて保持している認識結果等の情報を送信する。
音声認識処理手段102bは、識別子判定手段102cによって選別された音声データに対して音声認識処理を行い、その結果を保持する。
識別子判定手段102cは、制御指令によって指定された特定のパケットを、パケットに付与されている識別子にもとづいて選択し、音声認識処理手段102bに送信する。
パケット保持手段102dは、必要に応じてパケットをバッファリングする処理を実行する。
パケット受信手段102eは、音声入力手段101などの他の構成要素から音声データのパケットを受信し、パケット保持手段102dへ格納する。
制御手段103は、ユーザインタフェース手段103aと、対話管理手段103bとを含む。
制御手段103は、音声入力手段101や音声認識手段102を制御して、システム100全体が一つの音声対話システムとして動作するよう協調させる。
ユーザインタフェース手段103aは、音声以外のユーザインタフェース装置、例えばディスプレイやボタン、マウス、キーボード等であり、音声対話を補助するためにユーザとのインタラクションを行う。
対話管理部103bは、ユーザインタフェース手段103aや音声認識手段102から得られた情報にもとづいて、対話の進行を管理し、同時に必要に応じて他の構成要素に制御指令を送信する。
また、対話管理部103bは、他の構成要素からの制御指令を受信し、解釈し、必要に応じて何らかの情報を送信することで、全体を制御する。
伝送手段104は、図1に示す各構成要素の間で制御指令や音声データパケットを相互に送受信するための通信ネットワークである。図1では、制御指令を伝送する系と音声データパケットを伝送する系とがそれぞれ独立した系となっているが、同じ系を共有するようにしてもよい。
識別子としては、シリアル番号、シーケンス番号、タイムスタンプなどが用いられる。以下、それぞれの識別子について説明する。
シリアル番号は、パケットの順序関係を示すために広く用いられている付帯情報である。シリアル番号は、一般的に有限の整数で表現されるため、ある限定された時間内でのみ一意性を持つ。
シリアル番号を用いる場合、シリアル番号の桁あふれを検出する仕組みが別途必要になるが、実用上は、先行する番号との大小関係を検査するだけでよく、簡単である。
シリアル番号は、ある構成要素の組と別の組とでは値に一意性がない。図1に示す音声認識/合成システム100では、音声入力手段101と音声認識手段102との組が一組しか存在しないので問題にならないが、後述する第2の実施の形態における音声認識/合成システム300(図3参照)のように、音声入力手段と音声認識手段との組が複数存在し、それぞれ非同期に動作している場合には、各々の組の間でシリアル番号の一意性はないことになる。
シーケンス番号は、ある処理シーケンスに属する音声データを識別するための番号であり、例えば1回目の発話に対しては1番、2回目の発話に対しては2番といった要領で割り当てる。このように、シーケンス番号はそれを割り当てる側(この場合、音声入力手段101)が音声データを何らかの単位に区切る必要がある。しかし、実装が比較的容易なため、限定された用途では利用を検討する価値がある。
タイムスタンプは、ある音声データを処理した時刻をそのまま識別子として用いる方法である。タイムスタンプは、ほぼ無限の時間内で一意性があり、また、時系列データである音声データとの相性もよい。しかし、システム100を構成する各構成要素の間で絶対時刻を揃えておく必要がある。各構成要素が単一の計算機の上で動作するのであれば、そのような必要はない。ところが、本例のように、各構成要素が別々の計算機上で動作する場合には、例えば、時刻同期を行うためのNTP(Network Time Protocol)のような仕組みを併用することで、各構成要素の間で絶対時刻を揃えておく必要がある。
本例で用いる識別子は、システム100全体で各音声データを一意に識別できるものが望ましい。少なくとも、音声データを直接やり取りする構成要素の組において、ある限定された時間内でならば十分に一意性を保証できる識別子である必要がある。
上記の識別子の例のうちで、本例で用いる識別子に最も好適なのは、タイムスタンプである。時系列データである音声データとの相性がよく、また、音声対話システム開発者が直感的に把握しやすいためである。また、タイムスタンプは、時刻を意味するデータであるため、スケジューリング機能と容易に組み合わせることができる。よって、本例では、識別子としてタイムスタンプを用いるものとする。
なお、本例のシステム100は、識別情報の時間順序性を管理するための機能を備えている。この機能は、例えば制御手段103に備えられる。この機能により、制御手段103は、各識別情報と、各識別情報が付与された時刻とを対応付けして記憶しておく。この時刻は、例えば絶対時刻を管理するNTPサーバから提供されるシステム内で共通に用いられる時刻が用いられる。各識別情報と、各識別情報が付与された時刻に関する情報は、例えば識別情報を付与する機能を有する端末装置(例えば音声入力手段101)から取得するようにすればよい。このように構成することで、システム100に各識別情報の時間順序性を管理する機能を持たせることができる。
次に、本例の音声認識/合成システム100の動作について説明する。
図2は、本例の音声認識/合成システム100による音声認識処理の例を示すタイムチャートである。
図2に示すタイムチャートにおいて、縦軸は、時刻A0から時刻A14までの時間の経過を表しており、下方に進むほど未来の事象を表す。また、図2において、実線の矢印は、制御指令の流れを表す。また、破線の矢印は、音声データの流れを表す。
音声認識処理において、先ず、音声入力手段101は、音声データの入力を時刻A0から開始し、入力した音声データを順次パケットに分割して識別子を付与しながら、音声認識手段102に送信していく。
なお、入力した音声データから最初に生成されたパケットに付加される識別子は、「AI0」であるものとする。
音声認識手段102は、音声入力手段101からのパケットの受信を、時刻A1に開始する。ただし、時刻A1には、まだ音声認識処理が開始されていない。このため、音声認識手段102は、受信した各パケットをパケット保持手段102dに格納する。
次いで、制御手段103は、時刻A2に、音声認識処理の開始を指示する制御指令「AC1」を音声認識手段102に送信する。
制御指令「AC1」を送信する際には、制御手段103は、音声認識処理の対象データを特定するための任意の識別子を指定し、制御指令「AC1」に含めることができるものとする。ここでは、音声入力手段101によって音声データの入力処理が開始された時刻が時刻A0であることから、識別子「AI0」を制御指令「AC1」に含めるものとする。
音声認識手段102は、識別子「AI0」を含む制御指令「AC1」を時刻A4に受信すると、指定された識別子「AI0」が付加されている音声データをパケット保持手段102dから読み出し、読み出したパケットから音声認識処理を開始する。
その後、音声認識処理が時刻A6に完了すると、音声認識手段102は、その旨を示す音声認識処理完了通知「AC1’」を、制御手段103に送信する。
音声認識処理完了通知「AC1’」を受信すると、制御手段103は、音声入力を一時的に停止することとし、時刻A7に、音声入力手段101に向けて音声入力処理停止指令「AC2」を送信する。
音声入力処理停止指令「AC2」を時刻A8に受信すると、音声入力手段101は、その時点で音声認識手段102への音声データパケットの送信を停止する。
なお、音声認識手段102が音声認識処理を完了した時刻A6から、音声入力手段101が音声データパケットの送信を停止した時刻A8までの間は、音声入力手段101から音声認識手段102に音声データパケットが送信され続けている。すなわち、音声認識手段102が音声認識処理を完了した時刻A6のあとも、時刻A8までは音声データパケットが音声認識手段102に送信される。このため、音声認識手段102が備えるパケット保持手段102dには、時刻A6以降に受信され、時刻A8までに音声入力手段101から送信された音声データパケットが保持されている。
その後、制御手段103は、音声入力手段101に音声入力を再開するように、指令「AC3」を送信する。指令「AC3」を時刻A9に受信すると、音声入力手段101は、音声認識手段102へのパケットの送信処理を再開する。
なお、この例では、時刻A9にて送信処理の再開後に最初に送信されるパケットに付加される識別子は、識別子「AI9」であるものとする。
制御手段103は、音声入力手段101が音声データパケットの送信処理を再開した時刻が時刻Aであることっから、識別子「AI9」が付加されたパケットを処理対象の音声データとして音声認識を開始するように、識別子「AI9」を含む音声認識開始指令「AC4」を音声認識手段102に向けて送信する。
また、この例では、制御手段103は、指令「AC4」を送信した直後である時刻A10に、音声認識開始指令「AC5」を別途送信したものとする。
そして、この例では、音声認識開始指令「AC4」と音声認識開始指令「AC5」とが順次送信されたにもかかわらず、例えば伝送路の状態の影響で、指令「AC4」よりも先に、指令「AC5」が音声認識手段102に受信されたものとする。
このような場合でも、それぞれの指令には処理対象となる音声データを特定するための識別子が含まれているので、音声認識手段102は、どの音声データから音声認識処理を開始すればよいのか正確に判断することができる。よって、処理すべき適切な音声データに対して音声認識処理が行われる。
以上に説明したように、上述した第1の実施の形態では、音声データパケットに識別子を付与するとともに、処理対象とする音声データを特定するための識別子を指定した制御指令を発行する構成としているので、処理対象とする音声データを正確に特定することができる。
このような手法を用いない場合、認識処理の対象とすべき一部の音声データが捨てられたり、あるいは逆に、認識処理の対象とすべきでない音声データも含めて音声認識処理に掛けてしまうおそれがある。
図2に示した指令「AC1」のケースでは、時刻A4から始まる音声認識処理の対象として識別子「AI0」を持つパケット(以降の音声データ)を指示しているが、パケット保持手段102dによって保持されている範囲であれば任意の過去に到着したパケットを指定することができる。
また、時刻A4以降に到着するパケットを指定してもよく、その場合は、そのパケットが到着するまで音声認識処理の開始は延期される。
図2に示した例では、時刻A8からA9にかけて音声データの入力が中断しているが、音声認識手段102の内部にあるパケット保持手段102dには古いパケットがまだ残っている。このため、音声データの入力処理の再開後は、パケット保持手段102dの格納情報の見た目上は、中断直前である時刻A8に送信されたパケットと再開直後に送信された時刻A9のパケットとが連続して保持されているように見える。
仮に、再開後の音声認識処理でパケット保持手段102dに保持されているパケットを順番に処理していくこととすると、時刻A8と時刻A9の音声データの非連続性の影響で、認識精度は劣化してしまうことになる。しかし、図2のケースにおいては、再開時に発行された認識開始指令「AC4」にて識別子「AI9」を指定するようにしているので、ているので、音声データの非連続性の影響を受けることはなく、認識精度の劣化を防止することができる。
また、上述した第1の実施の形態では、さらに、音声データパケットに識別子を付与するとともに、ある処理が扱うべき音声データの識別子を指定して制御指令を発行する構成としているので、複数の制御指令の送信時刻と受信時刻が錯綜したとしても、それぞれの制御指令にもとづく処理を適切な音声データに対して行うことができる。
図2における制御指令「AC4」と制御指令「AC5」は、複数の制御指令の送信時刻と受信時刻が錯綜した場合の例である。
認識処理指令「AC4」では処理対象の音声データを特定するために識別子「AI9」が指定され、認識処理指令「AC5」では処理対象の音声データを特定するために識別子「AI10」が指定されていたとする。
この場合、指令「AC4」と指令「AC5」が到着した順序に関わらず、音声認識処理手段102は、各指令で指定されている処理対象の音声データについて適切に音声認識処理を行う。
これに対し、従来は、指令「AC4」と指令「AC5」とで異なるパラメータが用いられていたので、両者の到達順序が意図した順序と入れ替わってしまうと、それぞれの指令による音声データとパラメータの関係が不適切になり、認識精度の劣化を招くおそれがあった。
また、上述した第1の実施の形態では、音声データパケットへの識別子の付与を音声入力手段101の中で閉じて行う構成としているので、他の構成要素の種類や状態によらずに、音声データを適切に処理することができる。すなわち、音声入力手段101と他の構成要素とは互いに高いレベルで独立性を保ちながら、かつ制御指令と音声データの密な連携を達成することができる。
実施の形態2.
次に、本発明の第2の実施の形態について図面を参照して説明する。
図3は、本発明の第2の実施の形態における音声認識/合成システム300の構成例を示すブロック図である。
図3に示すように、本例の音声認識/合成システム300は、音声入力手段301と、音声認識手段302a〜302nの集合302と、制御手段303とを含む。音声入力手段301と、複数の音声認識手段302a〜302nと、制御手段303とは、それぞれ伝送手段304によって接続されている。
音声入力手段301は、上述した音声入力手段101と同様の構成とされる。音声認識手段の集合302は、2つ以上の音声認識手段によって構成される。個々の音声認識手段302a〜302nは、それぞれ、上述した音声認識手段102と同様の構成とされる。伝送手段304は、上述した伝送手段104と同様の構成とされる。
制御手段303は、ユーザインタフェース手段303aと、対話管理手段303bと、結果統合手段303cとを含む。ユーザインタフェース手段303aおよび対話管理手段303bは、それぞれ、上述した制御手段103におけるユーザインタフェース手段103aおよび対話管理手段103bと同様の構成とされる。
結果統合手段303cは、複数の音声認識手段302a〜302nからそれぞれ受信した認識結果を何らかの方法で評価し、その結果を統合させて、単一の音声認識手段から取得した音声認識結果と同様に取り扱うことができるようにする。具体的には、例えば、処理対象の音声データにおける各区間の音声認識結果について、それぞれ、信頼度が高い音声認識手段の認識結果を採用し(例えば住所の音声認識については音声認識手段302aが信頼度が最も高く、名前の音声認識については音声認識手段302bが信頼度が最も高いなどの情報をあらかじめ把握しておく)、採用した認識結果を繋ぎ合わせるようにすればよい。
本例の音声認識/合成システム300は、複数の音声認識手段302a〜302nに、単一の音声入力手段301から入力された同一の音声データについて、それぞれ異なる条件の下で、音声認識処理を実行させる。
そして、制御手段303に、音声認識手段302a〜302nがそれぞれ導き出す少しずつ異なる結果を、結果統合手段303cによって統合する処理を実行させる。
次に、本例の音声認識/合成システム300の動作について説明する。
図4は、本例の音声認識/合成システム300による音声認識処理の例を示すタイムチャートである。
図4に示す音声認識処理では、各構成要素の間の音声データと制御指令のやり取りが示されている。
音声入力手段301は、時刻B0に入力された音声データに識別子「BI0」を付加し、各音声認識手段302a〜302cにそれぞれ送信する。
ここでは、音声入力手段301によって送信された音声データが各音声認識手段302a〜302cに到着する時刻が、それぞれ異なるものとする。図4に示すように、この例では、時刻B1に音声認識手段302cに到着し、時刻B2に音声認識手段302bに到着し、時刻B3に音声認識手段302aに到着したものとする。
また、図4に示すように、制御手段303が時刻B4に発行した音声認識開始指令「BC1」が各音声認識手段302a〜302cに到着する時刻も、それぞれ異なるものとする。
このとき、制御手段303は、処理対象データを特定するための識別子として指令「BC1」に識別子「BI0」を指定している。このため、各音声認識手段302a〜302cにて同一の音声データを処理対象とする音声認識処理が適切に実行される。
もちろん、制御手段303が、時刻B4とは異なる時刻B5に音声認識開始指令「BC2」を発行したとしても、指令「BC2」にて識別子「BI0」が指定されていれば、指令「BC1」を発行した場合と全く同一の音声データを音声認識処理の対象とさせることができる。
一方、ある音声データにおける異なる区間のデータを、各音声認識手段302a〜302cに別個に処理させるようにしてもよい。
具体的には、例えば、図4に示すように、時刻B6、時刻B7、時刻B8に入力された各音声データに付加された識別子が、それぞれ識別子「BI6」、識別子「BI7」、識別子「BI8」であるとする。そして、制御手段303が、音声認識処理開始指令「BC3」に識別子「BI6」を設定し、指令「BC4」に識別子「BI7」を設定し、「BC5」に識別子「BI8」を設定する。このように構成すれば、各音声認識手段302a〜302cに、それぞれ異なる音声区間の音声データを処理対象として音声認識処理を実行させることができる。
結果統合手段303cにおける認識結果統合処理には、さまざまな手法が考えられる。例えば、各音声認識手段302a〜302cでの認識結果の尤度にもとづいて並べ替え、信頼度を用いて再評価する等の手法を取ることができる。また、その他には、例えば、認識結果を純粋に文字列として扱う方法や、入力音声とのアライメントを取って評価する方法などが考えられる。
以上に説明したように、上述した第2の実施の形態では、音声認識処理の対象となる音声データを識別子によって厳密に指定する構成としているので、複数の音声認識処理手段302a〜302cによって並列的に音声認識処理を行う際に、各々の音声認識処理手段302a〜302cが確実に指定通りに同じ音声データを扱うよう保証することができる。
また、上述した第2の実施の形態では、音声認識処理の対象となる音声データを識別子によって厳密に指定する構成としているので、各音声認識手段302a〜302cにある音声データの異なる区間をそれぞれ音声認識処理させる際に、それぞれが処理した区間における音声データの時刻関係を正確に知ることができる。従って、複数の認識結果の時刻関係を完全に把握した上で、それら複数の認識結果を統合することができる。
さらに、上述した第2の実施の形態では、音声認識処理の対象となる音声データを識別子によって厳密に指定する構成としているので、ある音声認識手段の認識結果や認識処理中の途中経過に応じて、処理対象の音声に適した別の音声認識手段を起動したり、認識処理の精度を向上させるためのパラメータ(処理対象の音声に適したパラメータ。具体的には、例えば氏名用のパラメータ、住所用のパラメータなどがある)を動的に変化させることができ、その際に扱われた音声データの識別子を調べることによって、結果統合手段303cがそれらをより正確に統合することができる。
実施の形態3.
次に、本発明の第3の実施の形態について図面を参照して説明する。
図5は、本発明の第3の実施の形態における音声認識/合成システム500の構成例を示すブロック図である。
図5に示すように、音声認識/合成システム500は、音声入力手段501と、第1の音声認識手段502と、第2の音声認識手段503と、制御手段504とを含む。音声入力手段501と、音声認識手段の集合502と、第1の音声認識手段502と、第2の音声認識手段503と、制御手段504とは、伝送手段505によって接続されている。
第1の音声認識手段502は、音声認識制御手段502aと、音声認識処理手段502bと、結果統合手段502fと、識別子判別手段502cと、パケット保持手段502dと、パケット送受信手段502eとを含む。
音声認識制御手段502aと、音声認識処理手段502bと、識別子判別手段502cと、パケット保持手段502dとは、それぞれ、音声認識制御手段102aと、音声認識処理手段102bと、識別子判別手段102cと、パケット保持手段102dと同様に構成される。
パケット送受信手段102eは、音声入力手段501からの音声データパケットを受信する処理や、第2の音声認識手段503に対して音声データパケットを送信する処理などを実行する。
結果統合手段502fは、第1の音声認識手段502の認識結果と、第2の音声認識手段502の認識結果とを統合する処理などを実行する。
第1の音声認識手段502は、音声入力手段501からの音声データを受信し、制御手段504の制御に応じて受信した音声データを認識するための音声認識処理を実行し、認識結果を送信する。
この例では、第1の音声認識手段502は、音声認識処理の任意のタイミングで第2の音声認識手段503を呼び出し、音声認識手段503による音声認識処理の処理結果を受け取って、結果統合手段502fによって自らの認識結果と統合した後、それを最終的な結果として用いる。
第2の音声認識手段503が用いる音声データは、第1の音声認識手段502の内部にあるパケット保持手段502dから読み出した音声データをパケット送受信手段502eによって転送することにより第2の音声認識手段503に入力される。なお、音声入力手段501から第2の音声認識手段503に、音声データを直接送信するようにしてもよい。
音声入力手段501、制御手段504、伝送手段505は、それぞれ、上述した音声入力手段101、制御手段103、伝送手段104と同様に構成される。また、第1の音声認識手段502は、上述した音声認識手段102に結果統合手段502fを付加し、さらにパケット送信手段102eをパケット送受信手段に502eに変更した構成とされている。さらに、第2の音声認識手段502は、上述した音声認識手段102と同様の構成とされる。
なお、第1の音声認識手段502と第2の音声認識手段503との間に、第3、第4、・・・の音声認識手段を挟みこむこともできる。さらに、各音声認識手段502,503
の代わりに、上述した第2の実施の形態における複数の音声認識手段302a〜302nの集合302を用いることもできる。
次に、本例の音声認識/合成システム500の動作について説明する。
図6は、本例の音声認識/合成システム500による音声認識処理の例を示すタイムチャートである。
この例では、第1の音声認識手段502にてある認識処理を行う過程で、その処理対象の音声データの一部または全体に対して、異なる条件の下で音声認識処理を実行させる。この場合、第1の音声認識手段502は、異なる条件の下での音声認識処理の対象とする音声データを第2の音声認識手段503に転送するようにすればよい。
図6には、第1の音声認識手段502が第2の音声認識手段503に同じ音声データを処理させたときの例が示されている。この図6には、第2の音声認識手段503に対して音声データを与える2つの例が示されている。
第1の例(時刻C0〜時刻C8に示す例)では、第2の音声認識手段503は、音声入力手段501から音声データを直接受け取る。すなわち、音声入力手段501は、第1の音声認識手段502および第2の音声認識手段503に対し、入力した音声データに識別子付加して順次送信する。
制御手段504は、時刻C0に、第1の音声認識手段502に対して識別子「CI1」の音声データを音声認識するように、識別子「CI1」を含む指令「CC1」を出す。
指令「CC1」を受信した時刻C2に、第1の音声認識手段502は、音声認識処理を開始するとともに、第2の音声認識手段503に対しても同じ識別子「CI1」の音声データに対する認識処理を開始するように、識別子「CI1」を含む指令「CC2」を発行する。
第2の音声認識手段503は、識別子「CI1」の音声データを音声入力手段501から直接受け取り、音声認識処理を行う。そして、第2の音声認識手段503は、認識処理が完了すると、その旨を示す認識処理完了通知「CC2’」を第1の音声認識手段502に送信する。
第1の音声認識手段502は、認識処理完了通知「CC2’」を受けると、結果統合手段502fで自らの認識結果と第2の音声認識手段503の認識結果とを統合し、最終的な認識処理の完了を示す認識処理完了通知「CC1’」を制御手段504に送信する。
上記のように、第1の例では、第1の音声認識手段502が、制御手段504からの指令「CC1」を受けたことに応じて、音声認識処理を開始するとともに、第2の音声認識手段503に対して指令「CC2」を発行する。この指令「CC1」と指令「CC3」は、識別子「CI1」を含んでいれば同一内容の指令であってもよく、一部が異なる内容(例えば処理時刻や処理結果の返答先に関する情報)となっていてもよい。この場合、第1の音声認識手段502が、指令「CC1」の内容を変更することで指令「CC2」を作成するようにしてもよい。なお、認識処理完了通知「CC2’」および「CC1’」についても同様である。
第2の例(時刻C9〜時刻C18に示す例)では、第2の音声認識手段503は、第1の音声認識手段502から認識対象となる音声データを受信する。すなわち、第1の音声認識手段502は、音声入力手段501からの識別子が付加されている音声データを受信し、第2の音声認識手段503に順次転送する。
制御手段504は、時刻C9に第1の音声認識手段502に対して識別子「CI10」の音声データを音声認識するように、識別子「CI10」を含む指令「CC3」を出す。
指令「CC3」を受けた時刻C11に、第1の音声認識手段502は、音声認識処理を開始するとともに、第2の音声認識手段503に対して識別子「CI10」の音声データを転送し、その後、時刻C12に、第2の音声認識手段503に対しても同じ識別子「CI10」の音声データに対する認識処理を開始するよう指令「CC4」を発行する。
第2の音声認識手段503は、第1の音声認識手段502からの識別子「CI10」が付加された音声データパケットを受信し、指令「CC4」に従って音声認識処理を行う。
そして、第2の音声認識手段503は、音声認識処理が完了すると、その旨を示す認識処理完了通知「CC4’」を第1の音声認識手段に送信する。
第1の音声認識手段502は、認識処理完了通知「CC4’」を受けると、結果統合手段502fで自らの認識結果と第2の音声認識手段503の認識結果とを統合し、最終的な認識処理の完了を示す認識処理完了通知「CC3’」を制御手段504に送信する。
なお、第2の音声認識手段503がどの構成要素から音声データを受け取るかは、各構成要素間の伝送路の状態などによって決めることが望ましい。
例えば、音声入力手段501から音声認識手段への伝送路は比較的混雑しており、一方で音声認識手段同士の間の伝送路は比較的空いているのであれば、音声データは音声認識手段の間でやり取りする方がよい。
以上に説明したように、上述した第3の実施の形態では、ある音声認識手段が別の音声認識手段を呼び出して音声認識処理を実行させる構成としたので、見た目上、他の構成要素の関与なしに音声認識処理性能を向上させることができる。また、この際、識別子を指定した制御指令を用いることによって、第2の音声認識手段503が処理すべき音声データを厳密に指定することができる。
実施の形態4.
次に、本発明の第4の実施の形態について図面を参照して説明する。
図7は、本発明の第4の実施の形態における音声認識/合成システム700の構成例を示すブロック図である。
図7に示すように、音声認識/合成システム700は、音声生成手段701と、音声出力手段702と、制御手段703とを含む。音声生成手段701と、音声出力手段702と、制御手段703とは、伝送手段704によって接続されている。
音声生成手段701は、音声生成制御手段701aと、音声生成処理手段701bと、パケット分割手段701cと、識別子付与手段701dと、パケット保持手段701eと、パケット送信手段701fとを含む。
音声生成手段701は、制御手段703からの制御指令を受けて音声を生成し、パケットに切り分け、それらに識別子を付与して、音声出力手段702に送信する。
音声生成制御手段701aは、制御手段703などの他の構成要素からの制御指令を受信し、受信した制御指令にもとづいて音声生成手段701全体の動作を制御する。また、音声生成制御手段701aは、他の構成要素からの要求に応じて音声生成処理の状況等の情報を送信する。
音声生成処理手段701bは、他の構成要素からの制御指令にもとづいて、音声データを生成する。具体的には、音声合成技術を用いて何らかの文字列から音声波形を合成する処理や、制御指令によって指定された音声波形ファイルを読み込む処理などを実行する。
識別子付与手段701dは、上述した音声認識/合成システム100が備える識別子付与手段101dと同様に動作するが、さらに、あるパケットに付与する識別子を他の構成要素からの制御指令によって決定する機能を有する。
パケット分割手段701c、パケット保持手段701e、パケット送信手段701fは、それぞれ、上述した音声認識/合成システム100が備えるパケット化手段101c、パケット保持手段101e、パケット送信手段101fと同様に構成される。
音声出力手段702は、音声出力制御手段702aと、音声出力手段702bと、識別子判別手段702cと、パケット保持手段702dと、パケット受信手段702eとを含む。
音声出力手段702は、制御手段703からの制御指令を受けて音声を出力する処理や、制御手段703からの要求に応じて処理を行い、その処理結果を制御手段703に送信する処理などを行う。
制御手段703および伝送手段704は、それぞれ、上述した音声認識/合成システム100が備える制御手段103および伝送手段104と同様に構成される。
次に、本例の音声認識/合成システム700の動作について説明する。
図8は、本例の音声認識/合成システム700による音声合成処理の例を示すタイムチャートである。
図8のタイムチャートには、制御手段703からの指示にもとづいて音声生成手段701で生成された2つの音声データが、音声出力手段702を通じて、制御手段703の意図した時刻にユーザ(ユーザ端末)に向けて出力される処理の例が示されている。
図8において、上下方向の実線の矢印はそれぞれの構成要素における時間の経過を表し、下に向かうほど未来の事象を表す。また、左右方向の実線の矢印は制御指令の流れを表し、破線の矢印は音声データの流れを表す。なお、「ユーザ」は、例えばパーソナルコンピュータや携帯情報端末などのユーザ端末を意味する。
制御手段703は、音声生成手段701に対して、音声生成処理を行い、その結果生成された音声データを音声出力手段702へ送信するように、時刻D0に指令「DC1」を発行する。このとき、制御手段703は、音声生成手段701に対して、生成された音声データの先頭パケットには識別子「DI0」を付与するよう指示する。
指令「DC1」を受信すると、音声生成手段701は、音声生成処理手段701bによって生成音声を作成し、パケットに分割する。分割した各パケットには、音声生成手段701は、識別子「DI0」から、識別子「DI1」,識別子「DI2」・・・を順番に付与していく。ここでは、最後のパケットに付与された識別子が識別子「DI4」であったとする。
指令「DC1」に応じた音声データの生成を完了すると、音声生成手段701は、その旨を示す生成完了通知「DC1’」を制御手段703に送信する。
次いで、時刻D6に、制御手段703は、音声出力手段702に対して、識別子「DI0」〜識別子「DI4」が付加されている音声データを時刻D11から順次出力するように音声データ出力指令「DC3」を発行する。
音声データ出力指令「DC3」を受信すると、音声出力手段702は、音声生成手段701から当該識別子(識別子「DI0」〜識別子「DI4」)が付加された音声データを受信し、時刻D11までにパケット保持手段702dに保持し、その後、時刻D11から、識別子「DI0」〜識別子「DI4」が付加されている音声データを順次出力する。
なお、この例では、図8に示すように、制御手段703は、制御指令「DC1」に従って生成され出力される音声データに続けて別の音声データが出力されるように制御指令「DC2」を発行するものとする。
具体的には、制御指令「DC1」と同様にして、制御手段703は、音声生成手段701に対して、時刻D3に指令「DC2」を発行するとともに、生成された音声データの先頭パケットには識別子「DI5」を付与するよう指示する。
指令「DC2」を受信すると、音声生成手段701は、音声生成処理手段701bによって生成音声を作成し、パケットに分割する。分割した各パケットには、音声生成手段701は、識別子「DI5」から、識別子「DI6」,識別子「DI7」・・・を順番に付与していく。ここでは、最後のパケットに付与された識別子が識別子「DI10」であったとする。
指令「DC2」に応じた音声データの生成を完了すると、音声生成手段701は、その旨を示す生成完了通知「DC2’」を制御手段703に送信する。
次いで、時刻D8に、制御手段703は、音声出力手段702に対して、識別子「DI5」〜識別子「DI10」が付加されている音声データを順次出力するように音声データ出力指令「DC4」を発行する。このとき、音声データ出力指令「DC4」にて、音声データの出力を実際に開始する時刻として、出力対象の音声データの前に出力される音声データ(識別子「DI0」〜識別子「DI4」が付加されている音声データ)の開始時刻D11に、その音声データの出力時間の長さを加えることによって算出される時刻D12を指定する。
なお、音声データの出力時間の長さは、何らかの方法であらかじめ取得しておくようにすればよい。具体的には、例えば、識別子の定義によっては、識別子そのものから計算できる。また、例えば、音声生成手段701に問い合わせることによって取得しておいてもよい。さらに、例えば、最初の制御指令「DC1」に対する応答「DC1’」の際に、同時に対応する音声データの出力時間の長さを示す情報を送信するようにしてもよい。
また、図8に示した方法とは別の方法として、音声出力手段702に対して、識別子「DI4」の音声データの出力を完了した直後に、識別子「DI5」〜識別子「DI10」を出力するよう指令を出すようにして、連続して音声出力を行うようにすることも考えられる。
以上に説明したように、上述した第4の実施の形態では、音声データを実際に出力することを指令する際に、その出力時刻だけでなく処理対象とする音声データの識別子を指定する構成としたので、適切な時刻に適切な音声データが出力されるよう保証することができる。
実施の形態5.
次に、本発明の第5の実施の形態について図面を参照して説明する。
図9は、本発明の第5の実施の形態における音声認識/合成システム900の構成例を示すブロック図である。
図9に示すように、音声認識/合成システム900は、音声入力手段901と、音声認識手段902と、音声生成手段903と、音声出力手段904と、制御手段905とを含む。音声入力手段901と、音声認識手段902と、音声生成手段903と、音声出力手段904と、制御手段905とは、伝送手段906によって接続されている。
なお、制御手段905を除く各構成要素のうち1または2以上の構成要素を備えていない構成としてもよい。
音声入力手段901、音声認識手段902、制御手段905、伝送手段906は、それぞれ、上述した音声認識/合成システム100が備える音声入力手段101、音声認識手段102、制御手段103、伝送手段104と同様に構成される。
また、音声生成手段903と音声出力手段904は、それぞれ、上述した音声認識/合成システム700が備える音声生成手段701と音声出力手段702と同様に構成される。従って、図9に示す各構成要素における個々の動作の詳細については省略する。
本例の音声認識/合成システム900の動作は、上述した第1の実施の形態における音声認識処理と第4の実施の形態における音声合成処理とを組み合わせたものである。
従って、第5の実施の形態では、上述した第1の実施の形態および第4の実施の形態にてそれぞれ説明した効果をともに得ることができる。
さらに、第5の実施の形態では、音声入力手段901と音声出力手段904を組み合わせることで、バージイン機能を実現することができる。従って、従来の技術と比較して、破棄される入力音声データの区間を小さく抑えることができる。
なお、図9に示す音声認識/合成システム900に、上述した第2の実施の形態や、第3の実施の形態で示した構成をさらに組み合わせるようにしてもよい。そのように構成すれば、上述した第2の実施の形態や第3の実施の形態にてそれぞれ説明した効果をも同時に享受することができる。
以上のように、上述した各実施の形態では、音声データパケットにシステム内で一意に識別される識別子を付加して処理を行う構成としたので、音声データと、音声認識制御または音声合成制御の制御指令との本質的に独立した情報を適切に同期制御することができ、音声認識/合成システムを構成する各構成要素を適切に協調動作させることができる。
すなわち、同期すべき各データの先頭をデータの送信元が基準点として設定しておくといった特許文献1や特許文献2に開示されているような構成ではなく、音声データパケットにシステム内で一意に識別される識別子を付加して処理を行う構成としているので、同期のタイミングを設定できる構成要素が限定されることなく、システムにおける任意の構成要素が任意の同期タイミングを自由に設定することができるようになり、柔軟な処理を行うことが可能となっている。
また、上述した各実施の形態では、音声データパケットにシステム内で一意に識別される識別子を付加し、その識別子を設定した制御指令を行う構成としたことで、任意の構成要素が自由に同期タイミングを設定することによって、音声データと、音声認識制御または音声合成制御の制御指令との本質的に独立した情報を同期させることができる。従って、個々の構成要素がよりインテリジェントに動作することができるようになる。
また、上述した各実施の形態では、音声データパケットにシステム内で一意に識別される識別子を付加し、その識別子を設定した制御指令を行う構成としたことで、各音声認識/音声合成処理にて制御対象とする音声データを容易かつ厳密に特定することができ、音声認識精度や合成音声品質の劣化を防ぐことができる。
また、上述した各実施の形態では、音声認識処理の対象となる音声データの区間を識別子によって厳密に指定する構成としているので、入力音声の欠落、特に発話の先頭部分が欠落することを回避することができ、音声認識精度の低下を防ぐことができる。また、雑音の混入を最小限にするようにすれば、発話区間の誤検出を抑制することができる。
上述した各実施の形態のように、音声データ伝送系とコマンド伝送系とが独立している場合には、音声認識処理の開始を指令するコマンドに対応する音声データの区間がどのタイミングで音声認識手段に到着するかは不定である。上述した各実施の形態では、音声データの到着タイミングを知ることなしに、処理対象とされている適切な音声データ区間を特定することができ、適切に認識処理を行うことができる。
また、上述した各実施の形態では、音声認識処理の開始を指令するコマンドが頻繁に発行される状況においても、各々のコマンドの対象となる音声データを混同することなく識別することができ、ある音声認識処理の対象となる音声データ区間を厳密に指定することができるので、処理対象の音声に適したパラメータ設定を用いた音声認識処理が適切に行われることを保証できる。
すなわち、上述した各実施の形態のように、音声データと制御指令とがそれぞれ異なる伝送路を通るため、その順序関係はまったく保証されない。上述した各実施の形態では、たとえ制御指令を発行した構成要素が意図した順序と異なる順序で音声データが音声認識構成要素に到着したとしても、処理対象とされている適切な音声データ区間を確実に特定することができ、適切に認識処理を行うことができる。従って、例えば姓名の発話と電話番号の発話が連続してなされてときに、前者に対して電話番号用のパラメータ設定を用い、後者に対して姓名用のパラメータ設定を用いて認識処理を行ってしまうようなことは防止される。
なお、上述した各実施の形態において、付加する識別子の管理を工夫(例えば、音声データと付加した識別子との組合せや、入力した音声データを記憶保持しておく)するようにすれば、任意の時刻に発行された制御指令に別の任意の時刻の音声データを対応付ける構成とすることができる。そのように構成すれば、制御指令が発行される時刻よりも過去や未来の任意の時刻に入力された音声データであっても、その制御指令によって指令することができる。このように、制御指令が発行される時刻よりも過去や未来の任意の時刻に入力された音声データに対して、当該制御指令によって指令を行うことができるので、ある処理と別の処理との間の見かけ上のアイドル時間を最小化することができるようになる。なお、実際には、指定された音声データが確実に得られるような何らかの工夫(過去のデータのバッファリングや未来の制御のスケジューリング)を併せて実装する必要がある。
なお、上述した各実施の形態においては、音声出力を実行する時刻を制御指令に設定する例(例えば制御指令「DC3」)についてだけ述べたが、音声認識処理や音声合成処理を実行する時刻を制御指令に設定するようにしてもよい。この場合、制御指令に従って、その制御指令に設定されている時刻に、その制御指令に設定されている音声データパケットに対して音声認識処理や音声合成処理が実行されることになる。
なお、上述した各実施の形態では特に言及していないが、本システム100,300,500,700,900において実行される各処理は、本システム100等に搭載されている制御プログラム(同期制御プログラム)に従って実行される。この制御プログラムは、例えば、入力した音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声認識/合成システムに同期制御を実行させる同期制御プログラムであって、音声認識/合成システムを構成するコンピュータに、音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報を設定した制御指令を発行するステップと、制御指令に従って、当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または/および音声合成処理を行うステップとを実行させるためのプログラムである。
次に、本発明の具体的実施例について説明する。
以下に説明する実施例は、上述した第5の実施の形態に対応するものである。
図10は、本実施例における音声認識/合成システム1000を示す説明図である。図10に示すように、音声認識/合成システム1000は、音声対話管理サーバ1001と、入力端末装置1002と、音声入出力サーバ1003と、音声認識サーバ1004と、音声合成サーバ1005と、を含む。
音声対話管理サーバ1001と、入力端末装置1002と、音声入出力サーバ1003と、音声認識サーバ1004と、音声合成サーバ1005とは、それぞれ、コンピュータネットワーク1006によって接続されている。
音声対話管理サーバ1001を除く各コンピュータ1002,1003,1004,1005は、それぞれ何台でも接続することができる。また、一台の装置で任意の二台以上の装置の役割を兼ねることもできる。例えば、一台のコンピュータで音声対話管理サーバ1001と音声入出力サーバ1003とを兼ねることができる。
あるいは、一台のコンピュータがすべての構成要素を兼ねることもできる。またさらに、上述した第3の実施の形態のように、一台の音声認識サーバ1004ないし音声合成サーバ1005が、別の音声認識サーバ1004、音声合成サーバ1005を呼び出すプロキシサーバの役割を兼ねてもよい。
音声対話管理サーバ1001は、システム全体を制御する制御装置であり、上述した制御手段905(図9参照)に相当する機能を持ったプログラムが動作するコンピュータである。また、複数の音声認識サーバまたは音声合成サーバから一台を選択し、音声入出力サーバに仲介する負荷分散処理を行う機能も有する。
入出力端末装置1002は、ユーザが直接利用する入出力装置であり、音声入出力機能の他、ディスプレイ装置やキーボード、マウス、タッチパネル等を搭載することもできる。
具体的には、入出力端末装置1002として、PC(パーソナルコンピュータ)、電話(固定電話、携帯電話)、PDA(Personal Digital Assistants)、ネットワーク対応型家電等が用いられる。
入出力端末装置1002は、音声認識/合成システム900が備える制御手段905、音声入力手段901および音声出力手段904のそれぞれの機能の一部を兼ねたものである。
音声入出力サーバ1003は、入出力端末装置1002によって入力された音声データを音声パケットに分割し、識別子を付与し、各構成要素に送信する機能を有するサーバ装置である。
また、音声入出力サーバ1003は、逆に、他の構成要素から受信したパケットを結合し、音声出力装置1002に送る機能をも有する。
すなわち、音声入出力サーバ1003は、音声認識/合成システム900が備える音声入力手段901および音声出力手段904のそれぞれの機能の一部を兼ね備えたものである。なお、この実施例では、音声データの識別子として、タイムスタンプが使用される。
音声認識サーバ1004は、音声入出力サーバ1003から得られた音声データに対して音声認識処理を行い、その結果を音声対話管理サーバ1001に送信する処理を実行するサーバ装置である。音声認識サーバ1004は、音声認識/合成システム900が備える音声認識手段902に相当する。
音声合成サーバ1005は、音声対話管理サーバ1001の指示に従って音声データを合成し、その結果を音声入出力サーバ1003に送信する機能を有するサーバ装置である。
なお、音声合成処理がその都度行われる必要はなく、あらかじめ合成した結果をキャッシュしておき、キャッシュしてある合成音声を用いるようにしてもよい。また、合成音声だけでなく、任意の波形ファイルを再生することで音声データを生成するようにしてもよい。
音声合成サーバ1005は、音声認識/合成システム900が備える音声生成手段903に相当する。
コンピュータネットワーク1006は、例えば一般的に用いられるLANであるが、伝送遅延の大きな網、例えば無線ネットワークや電話回線網、WANを用いることもできる。
入出力端末装置1002と音声入出力サーバ1003とを二つ組み合わせることで、音声認識/合成システム900が備える音声入力手段901および音声出力手段904の機能を実現する。
本実施例の音声認識/合成システム1000の各構成要素が上記のように区分されているのは、さまざまな既存の入出力端末装置をこの対話システム1000で利用可能とするために、各々の入出力端末装置による音声入出力の違いを音声入出力サーバ1003で吸収しているからである。
従って、図10では、各入出力端末装置ごとに異なる音声入出力サーバに接続されている。ただし、この図10に示す例は、入出力端末装置と音声入出力サーバが常に1対1の関係にあることを示しているわけではない。ある音声入出力サーバに対応する入出力端末装置が複数あれば、1つの音声入出力サーバに複数種類の複数個の入出力端末装置が接続される構成としてもよい。
なお、音声認識/合成システム1000における各部の動作は、上述した第5の実施の形態における音声認識/合成システム900における各部の動作と同様であるため、その詳細な説明は省略する。
本発明によれば、自動音声応答装置等の音声対話システムの他、音声リモコンや音声インターネット閲覧装置、また障害者向けの音声ユーザインタフェース、あるいはロボットの音声対話機能などの各種の用途に適用するのに有用である。
また、本発明によれば、動画像や株価など、音声以外の時系列データを厳密に扱う用途に適用することも可能である。
本発明の第1の実施の形態における音声認識/合成システムの構成例を示すブロック図である。 本発明の第1の実施の形態における音声認識/合成システムの動作の一例を示すタイムチャートである。 本発明の第2の実施の形態における音声認識/合成システムの構成例を示すブロック図である。 本発明の第2の実施の形態における音声認識/合成システムの動作の一例を示すタイムチャートである。 本発明の第3の実施の形態における音声認識/合成システムの構成例を示すブロック図である。 本発明の第3の実施の形態における音声認識/合成システムの動作の一例を示すタイムチャートである。 本発明の第4の実施の形態における音声認識/合成システムの構成例を示すブロック図である。 本発明の第4の実施の形態における音声認識/合成システムの動作の一例を示すタイムチャートである。 本発明の第5の実施の形態における音声認識/合成システムの構成例を示すブロック図である。 本発明の実施例における音声認識/合成システムの構成を示すブロック図である。
符号の説明
100,300,500,700,900,1000 音声認識/合成システム
101,301,501 音声入力手段
102,302,302a,302b,302n 音声認識手段
103,303,504,703 制御手段
104,304,505,704 伝送手段
101a 音声入力制御手段
101b 音声入力処理手段
101c,701c パケット分割手段
101d,701d 識別子付与手段
101e,102d,502d,701e,702d パケット保持手段
101f,701f パケット送信手段
102a,502a 音声認識制御手段
102b,502b 音声認識処理手段
102c,502c,702c,904b 識別子判別手段
102e,502e,702e パケット受信手段
103a,303a ユーザインタフェース手段
103b,303b 対話管理手段
303c,502f 結果統合手段
502 第1の音声認識手段
503 第2の音声認識手段
701 音声生成手段
702 音声出力手段
701a 音声生成制御手段
701b 音声生成処理手段
702a 音声出力制御手段
702b 音声出力処理手段
1001 音声対話管理サーバ
1002 入出力端末装置
1003 音声入出力サーバ
1004 音声認識サーバ
1005 音声合成サーバ

Claims (23)

  1. 入力した音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声認識/合成システムであって、
    音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報として前記音声分割データの順序を識別する情報を設定した制御指令を発行する制御指令手段と、
    前記制御指令手段からの前記制御指令に従って、当該制御指令に識別情報として設定された前記順序を識別する情報によって特定される音声分割データ以降の音声データに対して音声認識処理または/および音声合成処理を行う音声処理手段とを備えた
    ことを特徴とする音声認識/合成システム。
  2. 入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加する識別情報付加手段を備えた
    請求項1記載の音声認識/合成システム。
  3. 音声データの入力処理を行う音声入力処理手段と、
    前記音声入力処理手段によって入力された音声データを複数の区間に分割した音声分割データを生成する音声データ分割手段と、を備えた
    請求項1または請求項2記載の音声認識/合成システム。
  4. 制御指令手段は、音声認識処理または/および音声合成処理の実行時刻を設定した制御指令を発行し、
    音声処理手段は、前記制御指令手段からの前記制御指令に従って、当該制御指令に設定されている実行時刻となったときに、当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または/および音声合成処理を行う
    請求項1から請求項3のうちいずれかに記載の音声認識/合成システム。
  5. 複数の音声処理手段を備えるとともに、
    前記複数の音声処理手段それぞれの音声認識処理または/および音声合成処理の処理結果を統合する処理結果統合手段を備えた
    請求項1から請求項4のうちいずれかに記載の音声認識/合成システム。
  6. 制御指令手段は、複数の音声処理手段のうちの一の音声処理手段に対して制御指令を発行し、
    前記一の音声処理手段は、前記制御指令手段からの制御指令の一部または全部を他の音声処理手段に転送する制御指令転送手段を有する
    請求項5記載の音声認識/合成システム。
  7. 一の音声処理手段は、制御指令手段からの制御指令によって指示された処理対象の音声データの一区間または全区間を他の音声処理手段に転送する音声データ転送手段を有する
    請求項6記載の音声認識/合成システム。
  8. 識別情報付加手段は、識別情報として、タイムスタンプ、シリアル番号、音声認識処理または/および音声合成処理による音声対話の処理シーケンス番号、またはこれらの組み合わせを、各音声分割データそれぞれに付加する
    請求項1から請求項7のうちいずれかに記載の音声認識/合成システム。
  9. 識別情報の時間順序性を管理する機能を提供する識別情報管理手段を備えた
    請求項1から請求項8のうちいずれかに記載の音声認識/合成システム。
  10. 識別情報管理手段は、システムを構成する各構成要素でそれぞれ用いられる絶対時刻を同期させ、かつ、識別情報に特定の絶対時刻を対応させることで、各識別情報の時間順序性を管理する
    請求項9記載の音声認識/合成システム。
  11. 入力した音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声認識/合成システムにおける同期制御方法であって、
    音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報として前記音声分割データの順序を識別する情報を設定した制御指令を発行し、
    前記制御指令に従って、当該制御指令に識別情報として設定された前記順序を識別する情報によって特定される音声分割データ以降の音声データに対して音声認識処理または/および音声合成処理を行う
    ことを特徴とする同期制御方法。
  12. 入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加する
    請求項11記載の同期制御方法。
  13. 音声データの入力処理を行い、
    前記入力処理によって入力された音声データを複数の区間に分割した音声分割データを生成する
    請求項11または請求項12記載の同期制御方法。
  14. 音声認識処理または/および音声合成処理の実行時刻を設定した制御指令を発行し、
    前記制御指令に従って、当該制御指令に設定されている実行時刻となったときに、当該制御指令に設定されている識別情報によって特定される音声分割データに対して音声認識処理または/および音声合成処理を行う
    請求項11から請求項13のうちいずれかに記載の同期制御方法。
  15. 制御指令に従って異なる処理手段で行われた複数の音声認識処理または/および音声合成処理の処理結果を統合する
    請求項11から請求項14のうちいずれかに記載の同期制御方法。
  16. 制御指令に従って音声認識処理または/および音声合成処理を行ったあと、前記制御指令の一部または全部を他の処理手段に転送し、
    前記転送された制御指令に従って前記他の処理手段にて音声認識処理または/および音声合成処理を行う
    請求項15記載の同期制御方法。
  17. 制御指令手段からの制御指令によって指示された処理対象の音声データの一区間または全区間を他の処理手段に転送する
    請求項16記載の同期制御方法。
  18. 各音声分割データそれぞれに付加する識別情報として、タイムスタンプ、シリアル番号、音声認識処理または/および音声合成処理による音声対話の処理シーケンス番号、またはこれらの組み合わせのいずれかを用いる
    請求項1から請求項17のうちいずれかに記載の同期制御方法。
  19. 入力した音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声認識/合成システムに同期制御を実行させる同期制御プログラムであって、
    前記音声認識/合成システムを構成するコンピュータに、
    音声データが複数の区間に分割された各音声分割データのうち処理対象の音声分割データを特定するための識別情報として前記音声分割データの順序を識別する情報を設定した制御指令を発行するステップと、
    前記制御指令に従って、当該制御指令に識別情報として設定された前記順序を識別する情報によって特定される音声分割データ以降の音声データに対して音声認識処理または/および音声合成処理を行うステップとを
    実行させるための同期制御プログラム。
  20. コンピュータに、
    さらに、入力した音声データが複数の区間に分割された各音声分割データに、システム内で一意に識別される識別情報として順序を識別する情報をそれぞれ付加するステップを
    実行させる請求項19記載の同期制御プログラム。
  21. コンピュータに、
    さらに、音声データの入力処理を行うステップと、
    前記入力処理によって入力された音声データを複数の区間に分割した音声分割データを生成するステップとを
    実行させる請求項19または請求項20記載の同期制御プログラム。
  22. 各音声分割データそれぞれに付加する識別情報として、タイムスタンプ、シリアル番号、音声認識処理または/および音声合成処理による音声対話の処理シーケンス番号、またはこれらの組み合わせのいずれかを用いる
    請求項19から請求項21のうちいずれかに記載の同期制御プログラム。
  23. 音声データの入力処理を行う音声入力処理手段と、
    前記音声入力処理手段によって入力された音声データを複数の区間に分割した音声分割データを生成する音声データ分割手段と、
    前記音声データ分割手段によって分割された各音声分割データに、システム内で一意に識別される識別情報として前記音声分割データの順序を識別する情報をそれぞれ付加する識別情報付加手段と、
    前記音声入力処理手段によって入力された音声データのうち、前記順序を識別する情報によって特定される音声分割データ以降の音声データを解析する音声認識処理または/および音声データを生成する音声合成処理を行う音声処理手段に対して、処理対象の音声分割データを特定するための識別情報として前記順序を識別する情報を設定した制御指令を発行する制御指令手段と、を備えた
    ことを特徴とする同期制御装置。
JP2004188408A 2004-06-25 2004-06-25 音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置 Expired - Fee Related JP4483428B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004188408A JP4483428B2 (ja) 2004-06-25 2004-06-25 音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004188408A JP4483428B2 (ja) 2004-06-25 2004-06-25 音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置

Publications (2)

Publication Number Publication Date
JP2006011066A JP2006011066A (ja) 2006-01-12
JP4483428B2 true JP4483428B2 (ja) 2010-06-16

Family

ID=35778402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004188408A Expired - Fee Related JP4483428B2 (ja) 2004-06-25 2004-06-25 音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置

Country Status (1)

Country Link
JP (1) JP4483428B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2881867A1 (fr) * 2005-02-04 2006-08-11 France Telecom Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
JP2012181307A (ja) * 2011-03-01 2012-09-20 Nec Software Hokkaido Ltd 音声処理装置、音声処理方法及び音声処理プログラム
JP6025785B2 (ja) * 2013-07-08 2016-11-16 インタラクションズ リミテッド ライアビリティ カンパニー 自然言語理解のための自動音声認識プロキシシステム
JP2016531375A (ja) * 2013-09-20 2016-10-06 アマゾン テクノロジーズ インコーポレイテッド ローカルとリモートのスピーチ処理
JP5901694B2 (ja) * 2014-04-01 2016-04-13 ソフトバンク株式会社 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム
DE112015003382B4 (de) * 2014-07-23 2018-09-13 Mitsubishi Electric Corporation Spracherkennungseinrichtung und Spracherkennungsverfahren
JP6429294B2 (ja) * 2015-02-10 2018-11-28 Necソリューションイノベータ株式会社 音声認識処理装置、音声認識処理方法およびプログラム
US10515637B1 (en) 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing

Also Published As

Publication number Publication date
JP2006011066A (ja) 2006-01-12

Similar Documents

Publication Publication Date Title
US20230053350A1 (en) Encapsulating and synchronizing state interactions between devices
US9454961B2 (en) Speech recognition using loosely coupled components
CN108228131B (zh) 自然语言虚拟助理中的全双工话语处理
EP2321821B1 (en) Distributed speech recognition using one way communication
US6970935B1 (en) Conversational networking via transport, coding and control conversational protocols
JP5039024B2 (ja) 多モード音声及びウェブ・サービスのための方法及び装置
TWI249729B (en) Voice browser dialog enabler for a communication system
JP4483428B2 (ja) 音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置
CN108184135A (zh) 字幕生成方法及装置、存储介质及电子终端
WO2002080144A1 (en) Text editing for recognized speech during synchronous playback
WO2002080143A1 (en) Synchronise an audio cursor and a text cursor during editing
WO2017014721A1 (en) Reduced latency speech recognition system using multiple recognizers
JP7448672B2 (ja) 情報処理方法、システム、装置、電子機器及び記憶媒体
JP5244663B2 (ja) 音声によってテキストを入力する音声認識処理方法及びシステム
JP2005202884A (ja) 送信装置、受信装置、中継装置、および送受信システム
WO2007023683A1 (ja) メディア処理方法、メディア処理プログラム
JP2006210973A (ja) 通信端末装置およびそのセッション接続方法
JP6944817B2 (ja) ロボット制御システム
KR100755374B1 (ko) 음성 시나리오 연출 시스템 및 그 방법
US20210399913A1 (en) Information processing apparatus and information processing method
CN117956241A (zh) 字幕处理方法、装置、设备和存储介质
JP2015012407A (ja) 音声出力装置、音声再生システム及び音声出力方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051121

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051121

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100302

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100315

R150 Certificate of patent or registration of utility model

Ref document number: 4483428

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140402

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees